美团岳树烨:智能运维“三部曲”破解大规模光模块管理难题

3月16日消息(九九)数据中心作为整个基础设施的底座,其规模正在逐年扩大,光互连组件在数据中心网络中的占比也在大幅上升,光器件(模块、AOC等)的成本正在接近网络设备。与此同时,“双碳”以及 “东数西算”等国家战略,对数据中心网络和光互连技术提出更高的要求。

在今天下午举行的“全光数据中心线上研讨会”上,美团网络工程师岳树烨表示,美团正在拥抱变化,从互连架构设计、产品选型、线上管理以及对下一代的提前布局等多个方面出发,建设高质量数据中心网络。

业务和生态共同催生400G网络

根据2019年9月ODCC组织(开放数据中心委员会)发布的《400G光模块技术白皮书》,400G网络架构会在2020年到2021年逐步商用。在不久的未来,800G甚至是1.6T模块也将会和我们见面。根据业内整体市场规模统计和预测显示,到2023年,光模块市场整体规模将达到120亿美元以上,相比2018年的60亿美元增长一倍。

从业务方面看,随着信息时代的到来,以及人工智能、虚拟/增强现实、物联网等新型技术的出现,数据流量呈现爆发式增长,这种增长对数据中心网络架构和容量等提出了越来越高的要求。

除了业务方面的需求,400G光模块的生态也逐步成熟,厂商陆续发布超强算力的GPU计算服务器。岳树烨指出,美团整体进度符合ODCC发布的预测,在2020-2021之间切入400G网络建设。

大规模光模块管理成为重要课题

随着网络架构升级,框式交换机逐步被拆成盒式交换机,光模块数量也随之增加。为了降低成本,交换机和光模块也逐步解耦,由模块厂商直接供货而不再是向设备厂商采购,这样做的好处是可以在一定程度上降低成本,但会提升运维复杂度。如何更好地做好对光模块的监控管理,将成为重要课题。

岳树烨介绍,常规网络监控是单点监控,即单一设备单一监控项。为了更有效地观察光模块收发光功率,需要观察的是一组收发,即本端和对端需要同时展示,因此美团对常规监控方法进行了优化:为每台交换机构建“端口邻居”数据库,并以http api的形式为上层应用提供服务。当运维人员查看本端光模块收发光信息时,系统会通过lldp数据库查询到对端信息,并同时展示。

岳树烨进一步介绍,美团针对大规模光模块管理探索出智能运维“三部曲”。一是异常主动发现,故障预测。利用机器学习分析告警阈值,网络、设备、光模块、光传输等更多精细特征指标异常发现及在线趋势预测。二是自我诊断,故障定位。结合业内数据、大数据分析及专家经验和知识图谱,分析光模块异常趋势。三是智能联动,快速通告。联动失效告警、自动隔离、工单派发、效果验收、业务恢复全链条的故障自动化处理。

“从2017年开始,终端模块使用者开启从商用到自采的转换,成本和故障率都有明显下降。”岳树烨说:“如果想获得成本、故障率和稳定性的长期收效,根据客户的应用需求进行定制开发并细化到芯片设计可以创造更高的价值,实现客户方、模块厂商和芯片厂商多方共赢。”

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-03-16
美团岳树烨:智能运维“三部曲”破解大规模光模块管理难题
美团岳树烨:智能运维“三部曲”破解大规模光模块管理难题,C114讯 3月16日消息(九九)数据中心作为整个基础设施的底座,其规模正在逐年扩大,光互连组件在数

长按扫码 阅读全文