美团权皓:大规模、多厂商、多类型光模块管理成为重要课题

5月14日消息(九九)随着信息时代的到来,以及人工智能、虚拟/增强现实、物联网等新型技术的出现,数据流量呈现爆发式增长,这种增长对数据中心网络架构和容量等提出了越来越高的要求。

在日前召开的“2021中国光通信高质量发展论坛”上,美团网络工程师权皓表示,美团数据中心从2015年发展到现在,一共经历了5代网络架构演进,在此过程中,网络构成发生了翻天覆地的变化:数据中心单集群服务器规模从1K发展到数万台,接收速率从千兆发展到100G和200G,互联带宽从10G发展为400G和800G。

当前,400G网络架构已经逐步商用,在不久的未来,800G甚至是1.6T模块也将会和我们见面。业内整体市场规模统计和预测显示,到2023年,光模块市场整体规模将达到120亿美元以上,相比2018年的60亿美元增长一倍。

随着网络架构升级,框式交换机逐步被拆成盒式交换机,光模块数量也随之增加。较10G网络,多平面CLOS架构增长了65倍。交换机和光模块也逐步解耦,以100G光模块为例,主要使用的类型包括100G SR4,100G CWDM4以及100G LR4,因而大规模、多厂商、多类型光模块管理将成为重要课题。

权皓指出,目前美团已经引入多种功能,预测和发现光模块在网络运行中的问题,力争实现实现自我诊断、自我治愈。

一是光模块信息采集。交换机和模块的解耦,使得模块需要独立运维管理,管理方法也需要从设备级别转为配件级别。美团光模块管理系统利用telemtry将模块的基本信息全部进行采集,包括光模块位置、生产日期,光模块厂商部件编码、序列号,以及收发光功率、温度、电压以及电流等基本信息,采集上来的数据经过格式化后存入数据库。

二是光模块信息监控。在实际运维过程中,可以总结出三大类端口故障,第一类是“端口闪断,秒级恢复”,第二类是“端口反复抖动”,第三类是“端口异常down”。其中第二类故障场景是常规监控手段无法实现的。为解决此类问题,美团网络团队探索了一种光模块预测方法,该方法通过对交换机日志和光模块数据进行分析,预判出哪些端口的光模块会出现异常,从而防患于未然,提高网络稳定性。

三是光模块信息运营。对故障模块原因和故障模块类型进行分析,可以发现发光器异常占比较大,CMDM4类型模块占比较大,所以需要在下一个POC阶段对CWDM4模块的发光器件进行重点测试。

权皓进一步指出,通过对100G光模块的故障管理,可以发现发光器件属于易损部件,在后续400G迭代中需要重点关注。

权皓表示,后续美团将引入AIOPS与光模块运维计划,利用机器学习分析告警阈值,通过网络、设备、光模块、光传输等更多精细特征指标实现异常主动发现和故障预测;结合业内数据、大数据分析及专家经验和知识图谱,分析光模块异常趋势,从而进行自我诊断和故障定位;并通过智能联动和快速通告,实现全链条的故障自动化处理。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2021-05-14
美团权皓:大规模、多厂商、多类型光模块管理成为重要课题
美团权皓:大规模、多厂商、多类型光模块管理成为重要课题,C114讯 5月14日消息(九九)随着信息时代的到来,以及人工智能、虚拟/增强现实、物联网等新型技术

长按扫码 阅读全文