深信服超融合卡慢盘识别准确率高达99%

  随着各行各业数字化转型升级的加速,数据存储容量和硬盘数量也在不断增加,数据丢失事件时有发生,特别是硬盘故障事件,一旦发生,对于业务的影响不可估量。

  超融合在磁盘故障提前检测及处置方面是如何做的?今天就跟大家揭秘信服云的卡慢盘监控和隔离机制。

  深信服超融合持续对主机上的硬盘进行IO级监控,如发现有卡盘或者慢盘,就会对硬盘进行隔离处理,避免继续有IO落入该硬盘导致业务卡死或者变慢。超融合卡慢盘检测隔离机制在应用过程中分为监控、识别和处置三个阶段。

  一、监控

  针对磁盘卡慢故障模式复杂的问题,多维度检测确诊。

  超融合采用了Linux通用的工具和信息,包括内核日志分析、smart信息分析、硬盘IO监控数据分析等从多个维度精确定位故障硬盘,真正实现不依赖特定硬件工具、兼容性广的软件定义可靠性。

  二、识别

  对识别卡慢盘的模型进行细致打磨:超融合卡慢盘检测机制在识别阶段,使用了《卡慢盘识别与处理方案》《一种卡慢盘识别处理方法、装置以及存储介质》《一种慢盘故障精准识别和诊断方法》等专利技术,制定出了更加精准的卡慢盘识别模型,使卡慢盘的识别准确率在99%以上。最终将卡慢盘分为三种类型:卡慢、严重慢盘、轻微慢盘。

  三、处置

  超融合针对不同类型的卡慢盘采用不同的处置方法,避免业务数据落在卡慢盘上,保障业务数据安全。在上述前提下,尽可能保障业务正常对外提供服务。

  超融合针对不同类型卡慢盘处置流程如下:

  (1)轻微慢盘

  轻微卡慢对业务性能影响较小,优先保障业务运行。超融合会在WEB控制台进行告警,并通过预先设置好的邮件、短信等方式发送给管理员,管理员根据情况进行人工处置。人工处置操作包括手动隔离、替换硬盘等。

  (2)严重慢盘

  在对端副本正常时,将该硬盘从系统中隔离。新数据多副本写入时,写入到其他健康的硬盘上,业务读取该盘数据时,主动切换到另一副本读取。同时触发数据重建,保障数据的安全性。

  在对端副本业务异常时,优先保障业务运行,超融合会在WEB控制台进行告警,并通过预先设置好的邮件、短信等方式发送给管理员,管理员根据情况进行人工处置。

  (3)卡盘

  在对端副本正常时,将该硬盘从系统中隔离,新数据多副本写入时,写入到其他健康的硬盘上,业务读取该盘数据时,主动切换到另一副本读取,同时触发数据重建,保障数据的安全性。

  在对端副本异常时,第一次出现卡慢场景优先保障业务运行。超融合会在WEB控制台进行告警,并通过预先设置好的邮件、短信等方式发送给管理员,管理员根据情况进行人工处置。1小时内出现3次硬盘卡慢时保障数据安全,将该硬盘从系统中隔离。

  综合实际测试效果,在未开启卡慢盘检测及处置功能前,在硬盘出现卡慢时,IO多次出现断崖式下降,业务持续受到影响。开启功能后超融合在硬盘卡慢亚健康状态出现后能够在1分钟内检测到并进行隔离处置,隔离后业务IO恢复稳定,整个过程虚拟机不出现HA,降低了卡慢盘对业务性能的影响。根据深信服统计,2021年卡慢盘引发的业务中断问题数下降60%。

  以上就是本期《信服云黑板报》的分享,关注“深信服科技”微信公众号,可以持续获取更多技术干货内容哦!

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )