过去的工具已无力应对当今变幻不定的 IT 局势。基础架构模型在持续快速改革,因此管理也应采用动态的流程和技术。
商业环境正从静态且可预测的物理系统(定义这个领域数十年)转变为可动态更改和重新配置的软件定义资源环境。此外,随着网络基础设施的不断发展,基于旧模型的软件系统要投入越来越多的精力来保持有效性,但仍会越来越落后。
在这场 IT 运维 (ITOps) 变革的影响下,数字化业务转型力量迫使传统 IT 管理技术走上改变之路。因此,现有 ITOps 流程和程序以及 IT 生态系统的管理结构发生了重大变化。
Gartner 在 2017 年为 IT 运维或 AIOps 创造了术语人工智能,深入反映这些变革的精神核心。
AIOps 使用数据科学和机器学习技术助力 ITOps 团队实时了解影响所管理系统的性能或可用性的问题。
在过去的几年中,企业争先恐后地去了解这种新技术,并试图走在它前面,AIOps 市场类别呈爆炸式增长,同时 Gartner 领域的咨询数量呈指数级增长。
本权威指南讨论有关 AIOps 的一切须知信息,推动它诞生的市场和技术变革以及如何应对这些挑战。
首先必须了解数字转型及其如何推动产生 AIOps。
数字转型涵盖新技术的实施、云应用和快速变化。它要求人们将重心转移到开发人员和应用程序上,并加快创新步伐。它还要获取如下设施:
所有这些新用户和新技术将传统的服务和性能管理工具和战略挤压到极限。
成功的数字转型离不开 AIOps,它赋能 IT 以大多数现代企业所需的速度运行。因此,AIOps 阐述了应对 ITOps 领域数字转型所需的范式转换。
AIOps 是“IT 人工智能运维”的首字母缩写。它是 ITOps(IT 运维)的未来。它结合了人类和算法智能,全面监测公司和企业在日常运营中所依赖的 IT 系统的性能和状态。
它是一种高端多层技术平台,使用机器学习和分析技术分析采集自各种 ITOps 设备和工具的大数据,以此增强和自动执行 IT 流程,从而自动发现问题并实时响应问题。
AIOps 要求您将孤立的 IT 数据移动到大数据平台中的综合观测数据(例如,工作日志和监控系统)和互动数据(如工作单、活动或事故记录中的数据)。
然后,AIOps 根据组合的数据实施机器学习和分析。在此基础上,通过持续的深入洞察推动不断改进自动化实施。因此,您可以将 AIOps 视为核心 IT 功能的 CI/CD(持续集成和持续部署)。
AIOps 桥接了三个 IT 学科(自动化、服务管理和性能管理)以实现持续洞察和改进的目标。人们认识到,在新的加速和超大规模 IT 环境中,有一种利用机器学习和大数据的全新方法,可克服人力和传统工具限制的问题。
AIOps 使用组织内的现有数据源,包括日志事件、传统 IT 监控、网络性能异常等。从这些来源系统收集的数据运用数学模式进行处理,从而自动识别重大事件,无需费力的手工预筛选。
另一层算法可分析事件,并识别存在类似潜在问题症状的一群相关活动。算法过滤可大大降低 ITOps 团队必须处理的警报干扰,同时还可避免不同工作组的工作单冗余路由而产生的重复情况。
取而代之的是,您可以动态组建虚拟团队,并分派不同的专家跨部门或技术边界的问题。现有的事件管理和票务系统可运用 AIOps 的功能,直接集成到现有流程中。
AIOps 进一步提高了自动化程度。它能够触发工作流程,不管是否有人工干预。当前的 ChatOps 功能在诊断和补救措施的正常协作过程中,积极利用现有的自动化功能。
随着机器学习系统变得越来越精确和可靠,现在无需人工干预即可触发易于理解的常规操作,从而及时解决问题以免干扰用户的使用。
以下是构成 AIOps 平台的技术。
所有 AIOps 平台都应为您的企业带来以下三项功能。
人工智能 (AI) 的前景是承担起人类工作,但速度更快、结果更好、规模更大。AIOps 可解决数字转型的规模、复杂性和速度难题,让您实现 ITOps 的这个目标。这些挑战包括:
现代化 IT 环境包括移动、托管和非托管云、第三方服务以及 SaaS 集成等,因此基础架构这词几乎是不恰当的。显然,传统的管理业务复杂性的方法在当今动态弹性的环境中不再行得通。通过手动的人工监督来管理和跟踪这种复杂性开始举步维艰。当前的 ITOps 技术已经超出了手动管理范畴。
性能监控以超快速度生成越来越多的警报和事件。在移动应用程序、物联网设备、API 和数字或机器用户诞生后,服务工作单数量开始呈阶梯式增长。
在企业实施数字化运营后,IT 就变成了一项业务。技术“消费化”改变了各行各业用户的期望。当下 IT 事件的响应必须即时,尤其在问题影响到用户体验的时候。
在开发运维部门,程序员承担了更多的应用程序级监视责任,但整个 IT 生态系统的健康以及基础架构、应用程序和服务之间的交互仍由核心 IT 承担责任。
第三方服务和云基础架构的易于采用特征让业务部门能够构建自己的 IT 应用程序和解决方案。控制和预算正在迁移到 IT 部门的边缘。因此,企业现可从外部核心 IT 添加更多的计算能力。
AIOps 与现有流程和工具相互集成,汇集了实用信息、功能和见解。企业当下使用不同区域和不同用途的监控工具。每个工具对特定部门、团队或公司都有价值,但其他相关方无法利用它的价值。
因此,AIOps 并没有运用费力的工具合理化举措,试图用一刀切解决方案强行解决个人独特需求,而是跨域、团队和工具打造无缝可见性,支持特定工具的大力发展。
同样,AIOps 还确保只创建真实可操作的事件,避免事件重复,减轻 IT 服务团队管理 (ITSM) 的工作量。IT 基础结架构库 (ITIL) 的顺序性质还决定了 AIOps 可解决和消除大量 ITSM 用户烦恼。
AIOps 还实现了自动化。它可集成编排和工作流程,直接以全自动或半自动形式呈现给操作员。IT 部门多年来开发了大型自动化解决方案库,因此他们必须确保只有达到正确的条件才能触发。AIOps 不仅可保证这一点,而且可将风险控制在最低水平,最大限度发挥现有自动化投资的价值。
如今,汇集各种类型技术的大规模 IT 环境的公司终究逃脱不了规模和复杂性两个难题。如果您将这些问题与严重依赖 IT 的业务模型结合在一起,AIOps 肯定是公司成功的一个决定性要素。尽管这些类型的企业存在于各行各业,但他们都有一个共同特征:规模庞大和迅速变化。业务敏捷性的需求上升带动了 IT 敏捷性的需求上涨。
迁移入云本身也是困难重重。例如扩展,整个 IT 迁移入云不太现实,也不可取。您会发现糅合不同 IT 基础架构交付形式的混合模式难以管理。
AIOps 可呈现所有类型基础架构的整体视图,帮助操作员了解来不及记录的关系变更,从而消除了运行混合云平台的大量风险。
采用 DevOps 模型的公司,或者正在采用该模型的公司,可能会发现很难在参与工作的各方角色之间维持高度一致性。开发和操作系统直接整合到 AIOps 模型可减少诸多可能会发生的对接摩擦。
您希望开发团队对 IT 环境的状态有更深入的了解。您还希望您的运营团队能够全面了解开发人员计划于何时以何种方式在生产环境中进行更改或部署。这个全面视图有助于确保项目整体成功推进,达到敏捷性和响应速度要求。
数字转型举措的定义很多,但是一个共同的因素是对敏捷性和速度的要求。尽管从技术上说,这是个业务要求,但 IT 必须以业务要求的速度运行才能避免成为瓶颈或实现更广泛的目标。AIOps 可消除大部分摩擦,有利于 IT 为大部分数字转型项目提供所需支持。
正确实施的 AIOps 平台可减少 IT 员工在日常警报上所花费的时间和精力。在机器学习和算法的运用下,IT 员工可训练 AIOps 平台不断精进。它们可逐渐吸收知识以改进软件的行为和有效性。
AIOps 工具可持续监控状态,不眠不休。员工可则可集中精力处理严重的复杂问题,同时落实计划举措提高业务稳定性和绩效。
AIOps 系统在对各种数据源进行整理和归类过程中,可观察企业多个运行、资源和服务之间的因果关系。这些机器学习和分析功能促使系统执行根本原因分析,从而加快疑难杂症故障排除,快速实施补救措施。
AIOps 改善了 IT 组之间以及 IT 部门与其他业务部门之间的工作流任务和协作。团队可以使用定制的报告和控制板快速了解要求和任务。他们还可以对接其他工作组,但无需学习其他工作组要掌握的知识。
AIOps 消除了噪音和干扰,有助于 IT 人员集中应对重要问题,不会被无关紧要的警报打扰。
AIOps 有助于关联多个数据源之间的信息,不仅打破了信息之间的藩篱,而且能洞察从物理、虚拟到云整个 IT 环境的全部状况,包括网络、计算和存储。
它推动服务所有者和专家之间的无摩擦协作。这可极大加快诊断、分析和解决速度,从而最大限度减少对最终用户的干扰。
尽管基本的 AIOps 技术相对成熟,但要创建和组合技术以投入实际生产,还有很长一段路要走。以下是它的一些缺点:
没有放之四海而皆准的成功模式。不过,下文的通用指南可帮助您入门。
首次查看 AIOps 时,您可能不会立即想到它如何适合您现有的工具类别。原因是它不能替代当前的监视、编排、支持服务或日志管理工具。相反,它牵涉所有领域和工具,在所有领域和工具中集成和使用信息。它输出的信息还有助于了解每个工具的同步情况。
这些工具单独来说,一个个本身都是有价值的。不过,工具之间的隔断导致用户无法适时访问正确的信息。AIOps 灵活地将各种不全面视图整合成综合性视图,从而有助于 ITOps 团队了解整体情况。
尽管 AIOps 与 ITOps 有云泥之别,但它并不是大数据和机器学习的首次应用。当股票经纪人从手工交易转向机器交易时,他们也采用了类似的机械学习方法。社交媒体还长期在诸如 Google Maps、Yelp 和 Waze 之类的应用程序或 eBay 和 Amazon 之类的在线市场中使用机器学习和分析。
这些技术在要求实时响应不断变化的条件和用户定制需求的环境中,体现出了高度可靠性和广泛有效性。
与机器学习技术相比,人工智能在 AIOps 中的应用前景更大有可为。当前,简单的自动化或将自动化与机器学习结合就能解决您当下紧迫的用例。人工智能及其未来应用场景仍在演变,未来可期。无论如何,企业务必在当前存在的 ITOps 上打下坚实的 AIOps 基础,然后在此基础上开始实施人类行为建模。
ITOps 人员由于工作的保守性质,无法快速适应 AIOps 环境。他们的职责是确保业务照常运行,维持企业基础架构的稳定性。不过,随着 AIOps 广泛应用的新兴趋势抬头,越来越多的 ITOps 工作组不得不在短时间内适应新的 AIOps 技术和战略。
这份权威的 AIOps 指南将帮助您确定它对于贵公司的适用性,以及何时整合该技术以及以何种方式使用。除此之外,建议您关注 AIOps 的最新发展态势。种种迹象表明,这项创新技术已蓄势待发。