智能运维:从场景中积蓄运维变革的未来

伴随金融机构数字化转型的加速,IT运维从理念到模式正在向智能运维全面迈进。作为率先实现智能运维工程化落地的全栈IT运维服务商,云智慧(北京)科技有限公司总裁刘洪涛先生为《新金融世界》分享了智能运维对于金融数字化和FinTech的意义,以及智能运维在金融机构落地过程中的注意要点。

金融数字化的运维变革

数字化时代,IT对金融业务的重要程度与日俱增,是推动机构进行智能运维变革的关键。

举例而言,在几年前,很多金融机构会在半夜12点-1点暂停交易进行系统维护,这在今天是绝不允许的。现在的金融客户怎么可能接受零点秒杀却无法完成支付的情况?!

如今的金融交易必须达到24小时不间断的秒级响应要求。这就意味着,IT对于金融而言已经由业务支撑系统转变为业务本身。

刘洪涛表示:“我们在跟金融行业用户交流的时候,大家谈的都是业务,关注的也是业务。”在这样的应用环境下,传统运维针对IT系统或者单独IT平台的监控已经不能满足需求。“客户关心的是交易是否成功,用户交易的体验怎么样,所以对运维要求与过去相比有很大的不同。过去,IT从底层设备、操作系统、应用、到业务这么几层,运维的关注点在于底层设备的高可用和稳定性,衡量指标是SLA能达到几个9。今天,大家的关注点集中到业务层面,衡量IT对业务影响程度的指标变成了MTTR(Mean Time to Recovery,平均故障修复时间),这就需要从业务的视角,实现覆盖所有业务链路的端到端全局监控、管理和分析,把监控的点和面都做完整,还要与业务指标进行关联,这就比传统运维复杂度高很多”,刘洪涛说。

当前金融运维的另外一个挑战来自于数字化转型的推进。区块链、虚拟化、容器、IoT等FinTech新技术的应用,导致IT规模和复杂度呈指数增长。过去,传统运维收到不明原因的告警信息,可以把相关设备一台台关掉,再逐一重启来进行排查,解除故障。但在金融系统如此庞大的今天,这类单纯依靠人工的故障修复方法显然是不可取的。不仅如此,随着IT运行环境越来越复杂,每时每刻产生的IT数据量更加惊人,依靠人工设定告警阈值、分析处理海量告警信息同样不现实。这就需要利用大数据和AI技术的助力,通过模式识别和算法对历史数据进行学习,设置更加有效的动态告警阈值,同时对海量告警信息进行实时压缩、收敛和关联分析,利用根因分析追踪导致事件发生的根本原因,实现告警事件的及时处置,有效降低MTTR。

智能运维的认知和核心技术

到目前为止,业界针对AIOps(智能运维)的认知尚未统一,有人说AIOps就是算法,有的则认为是自动化运维。刘洪涛表示:“其实AIOps并不是像APM那样的产品,而是一种理念。用AI技术去提升金融机构的运维能力和效率,让它具有更好的智能化,更高效的解决金融业务运行过程中遇到的种种问题。同时,AI是一种可以工程化的实用科技,AIOps就是AI在IT运维领域的落地,通过AI技术的工程化,全面提升现有ITOM、ITSM 和ITOA产品和解决方案能力。”

智能运维:从场景中积蓄运维变革的未来

  云智慧金融行业智能运维管控中心

谈到AIOps(智能运维)的核心技术,刘洪涛认为:“目前,智能运维的关键不是算法,因为很多算法都已经非常成熟而且开源了。但是,客户的应用场景千差万别,需求也各不相同,到底哪种算法用什么样的模式匹配到客户场景中,这才是核心。这是一个‘技术工程化’落地的过程,对于智能运维提供商来说,既要有非常好的算法能力,又要对客户的应用场景有非常好的理解力,还要有工程化落地的能力。这几种能力都具备,才能帮客户解决问题。”

此外,AIOps需要完整的历史数据、日志数据和实时监测数据。因此,要实现AIOps落地,数据采集能力同样必不可少,只有这样才能通过AI得到有价值的结果。

金融行业智能运维落地的理念和建议

早在2016年,云智慧就率先提出了智能运维的概念,并在金融、通信、制造、零售等多个行业进行了实践。针对AIOps在金融行业的落地,云智慧秉承的理念是: “以数据为基础,算法为支撑,场景为导向”。

部署智能运维首先要理解传统运维管理与智能运维的逻辑差异:传统运维管理是依赖流程——故障、告警、处理,依靠工单系统把这些串起来。智能运维是基于数据和智能化分析结果进行运维管理,与传统运维的逻辑完全不一样。

智能运维:从场景中积蓄运维变革的未来

  云智慧DOCP智能运维中台

与传统运维管理依靠ITSM平台管理所有IT问题不同,智能运维的落地注重场景化,解决的是某一类问题。例如智能运维的四大场景:统一监控、根因分析、动态基线、故障预测。当然,智慧运维的基础仍然是数据,在数据之上构建AI分析能力,在AI之上是事件管理等产品模块。这些模块以松耦合的方式组成,可根据用户需求的不同任意组合,提供告警抑制、异常检测、根因分析、多维分析、调用链追踪、故障预测等场景化解决方案能力。最后通过可视化运维监控中心,把IT价值直观呈现在IT和业务部门面前,让管理者和业务运营负责人都能看懂IT。

刘洪涛建议:“智能运维不要上来就做大而全的,我们的建议是‘小步快跑,阶梯式前进’。具体来说,先从某个运维问题总结出来的场景入手,而落地的时候要充分考虑未来几个、甚至几十个场景的整体需求。这种做法的好处在于效率最高,ROI最合算,也最有可能达成目标。IT团队在逐步积累AIOps经验的同时,树立起智能运维成功部署的信心。而业务部门可以从一个场景的变化快速看到AIOps价值和成效,自然更愿意配合IT部门的变革,推进业务与IT的融合。所以,我们的建议是做好规划,阶段式实现AIOps落地。”

金融行业智能运维的四大典型场景

云智慧总结了现阶段金融机构推进AIOps智能运维落地的四个典型场景。

一、统一监控。这是几乎所有用户在完成系统构建、业务上线之后都要用到的。统一监控与传统监控不同之处在于,它是服务于业务的。过去的监控系统主要监控底层硬件设备和竖井式IT系统,但对于金融机构来说,这些分散的监控系统共同支撑起业务的运转。因此,必须有一个开放的统一监控平台,把业务和一个个孤立的监控系统整合起来,同时也可以依托这个平台获得完整的IT数据。目前,在IT成熟度最高的银行业,已经有部分机构完成了统一监控平台的构建,而规模较小的城商行、农信、证券、基金等金融机构则有明显的统一监控需求。

二、根因分析。系统产生的大量告警信息怎么判断?依靠人工处理和工程师的经验判断故障变得越来越困难。利用智能算法对异常或者故障的根因进行分析,给出故障的根因推荐以及深入分析结果,让事件得到迅速处理。这也是一个AIOps的主要应用场景。

三、动态基线。动态基线是各种监控场景里的典型需求,基于历史数据,利用智能算法深度学习,对未来一段时间内每个时间点的数值进行精准预测,将预测值作为基线来监控和告警。由于业务指标受时间、季节、事件等因素影响不断波动,这就导致IT指标的变化同样是动态的,也只有动态阈值才能更快、更准确的发现问题,提高运维的事件响应和处理效率。

四、故障预测。很多问题的发生都是有征兆的,故障预测基于历史告警消息的相关性,对当前处于故障状态的警报可能造成的影响进行预测判断 ,从而实现故障的提前预警。这种场景最能体现AIOps的智能分析能力,但需要针对历史数据进行大量学习和训练,取得成效相对较慢。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。