畅想无人化运维的AIOps,还有多远的路要走?

科技云报道原创。

在IT行业,运维人常常自我调侃“赚着5k的月薪,操着5千万的心,名下挂着5亿的资产”。

机房的暖通、网络、综合布线,系统的监控告警、故障响应等一大堆繁杂琐碎的工作,充斥着运维人的日常。

与开发和产品相比,运维更像是一个后勤角色,这一行业也长期处于公众视野的暗处。

随着云计算、大数据、人工智能等技术的兴起,运维行业也迎来了新的技术变革。

2016年,Gartner提出智能运维AIOps的概念,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。Gartner预测,到2020年,AIOps的采用率将会达到50%。

六年过去了,AIOps技术发展得如何?

AIOps的实现思路

一种新的工作模式出现,必然会对原来稳定的工作模式进行改变,改变通常会受到新挑战,所以新工作模式需要能解决当前运维工作中遇到的难题而出现。

以金融行业的业务连续性管理为例,目标是提高公司的风险防范能力、有效地减少非计划的业务中断、防范运维操作风险,对于首次出现的未知异常能够利用工具量化分析并快速定位,确保在重大灾难性事件发生后能按计划恢复业务连续性。

在面对当前复杂的技术架构、不断引入的创新技术之下,传统运维团队原来被动救火式、问题驱动式的经验运维,已经很难实现业务连续性的保障目标。

金融企业运行安全稳定,需要运维数据赋予数据洞察、辅助决策、跟踪执行的能力,提升复杂环境下的运维管理能力。

例如:实时获得“发生了什么”?关联分析“为什么会发生”?智能预测“将会发生什么”?决策判断“采取什么措施”?自动执行“如何快速执行”?实时感知“工作执行的效果”?

AIOps就是为了解决上述问题而生,其价值在于通过机器学习来进行运维数据的挖掘,帮助人甚至代替人进行更有效和快速的决策,从而提升业务系统的SLA,减小故障处理的时间等,带来业务的价值,并最终实现真正意义上的无人值守运维。

如Gartner定义中提出,AIOps应用需要利用大数据,现代机器学习技术和其他高级分析技术,是一种相对较高门槛的工作模式。

为了更好地落地AIOps,运维组织需要深刻地理解AIOps的内涵,重点实现思路分为以下几个方面:

 以数据为基础

数据为先,AIOps需要快速生产高质量数据的能力。

“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;

“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。

从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。

其中,数据采集是按需在线采集数据的能力;

数据存储是根据数据类型、数据应用特点对数据进行归档、整理、传输、共享;

数据计算包括数据标注、清洗、建模、加工、标准化、质量监控,以及为了获得数据洞察、决策、执行而对数据进行分析统计;

数据管理重点围绕数据治理,包括运维数据标准、主数据、元数据、数据质量、数据安全的管理;

数据使用重点围绕数据服务角度涉及的数据目录、服务门户,以及配套的数据服务化能力。

以算法为支撑

算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。

随着国内TO B市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:

一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。

二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。

三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。

以场景为导向

场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力。

AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。

有了上面提到的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地:一种是利用算法赋能已有的运维场景,另一种是算法实现原来无法实现的运维场景。

前者是一个快速见效的模式,后者是应对变化而做出的变化。

以知识为扩展

运维知识描述了大量运维领域的相关对象定义、技巧,以及排故/解决经验的信息。

通过构建运维知识图谱,利用自然语义等算法技术,从海量数据中自动挖掘各类运维主体,对其特性进行画像和结构化描述,动态记录运维主体之间的关联关系,可以帮助IT人员实现故障链传播分析、根因定位、智能的变更影响分析、故障预测等多种AIOps场景。

值得注意的是,软件的一些“算法逻辑”不代表真正的AIOps,判断是否是真正AIOps的关键点在于:是否能自动从数据学习中总结规律,并利用规律对当前的环境给予决策建议。

  国内AIOps处于起步阶段

AIOps的概念非常美好,应用空间也相当广阔。除了互联网,在金融、物联网、医疗、通信、工业等领域,均表现出对智能运维的强烈需求。

数据显示,2020年中国IT智能运维市场规模为560.8亿元,年复合增速为20.1%,预计未来以15.9%复合增速扩张,2025年市场规模达1093.5亿元,表现出较大的市场潜力。

目前,我国政府部门也陆续出台《推动企业上云实施指南(2018-2020年)》《国家新一代人工智能标准体系建设指南》等一系列政策,推动智能运维领域的发展。

但必须承认的是,我国智能运维还处在起步阶段。

尽管国内运维行业在2016年前后迎来了一波融资热,但目前运维行业整体还比较落后。

一方面,技术有限,在线系统本身具有规模性和复杂性,是需要长期投入的研究领域;另一方面,智能运维需要高质量的标注数据,但运维数据积累明显不足,至少还需积累3-5年。

事实上,产品不落地、善于融资、估值虚高,是一些智能运维公司给业内人留下的印象。

目前国内大部分公司在技术层面的原创力都还不够强,很多都是利用国外的开源代码,有的公司甚至将几个开源产品拼凑在一起,内部之间仍是相互独立、割裂的,没有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力运维支持。

因此,尽管随着技术的发展,运维行业已初步进入自动化、智能化初级阶段,但现阶段运维仍旧是一个“费人”的行业。

为了规范国内智能运维领域的发展,中国信息通信研究院发布了《智能化运维AIOps能力成熟度模型》系列标准。

在此内容基础上,由中国信通院牵头的国内外首个智能运维(AIOps)国际标准在国际电信联盟第十三研究组ITU-T SG13也已成功立项。

在《智能化运维AIOps能力成熟度模型》中,面向智能运维整体能力建设,规定了对IT系统或平台进行智能化运维的参考框架及分级评估方法,提出了关于企业建设智能化运维能力的实施路径,能够指导国内互联网和传统行业在智能运维方向的相关实践落地。

结语

“建立一个可供数百万人每天使用,但只需一名兼职人员管理和维护的系统。”这是吉姆·格雷(Jim Gray)在1999年获得图灵奖时对无故障服务器系统的畅想。如今,随着AIOps的开发,我们比以往任何时候都更接近这一愿景,并有望超越这一愿景。

尽管AIOps仍处于起步阶段,但智能化给运维领域带来效率上的质变已肉眼可见。

这个领域的持续创新将为更多企业带来新的业务价值。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。