在武汉光谷未来科技城,一座占地2万平方米的智算中心里,1500PFLops双千卡集群正悄然织就一套精密的智能中枢。中国移动智算中心(武汉)作为全国首个区域型N节点,承载着千亿次模型训练的战略使命。这个由湖北移动与紫光股份旗下新华三集团共同打造的AI算力高地,不仅是华中地区等级最高、规模最大的智算中心,同时也是中国移动集团首个正式交付的智算项目,更开创了AI数字基建的建设与运维典范。
作为湖北移动的重要合作伙伴,新华三集团凭借其在 ICT 领域的深厚技术积累和丰富实践经验,为这个全新的区域型智算节点的建设和运维提供了全方位、高质量的支持与服务。双方携手打造AIO智算运维服务方案,提供面向ICT基础设施、算力服务、模型训练推理等一站式智算综合运维服务支撑,构建高效稳定的GPU计算集群和算力无损网络,并基于该集群构建端到端的技术服务支撑体系,护航这座矗立在长江之畔的智算中枢成为点燃华中地区高质量发展的新引擎。
打造智算中心技术服务新范式
随着项目正式完成组网调试,一套涵盖ICT基础设施、算力服务、模型训练推理的全栈式服务体系同步成型,这也预示着智算时代的技术服务商正逐步转型为算力服务架构师,并通过系统工程思维将硬件实施交付转化为持续服务能力。
面对湖北移动对于人工智能计算平台建设的整体需求,新华三集团深入理解客户业务场景,从系统架构设计入手,充分利用先进GPU的强大计算能力和算力网络的高速互联特性,按照最佳实践规划计算节点、存储节点以及网络拓扑布局,高性能的系统架构确保硬件资源得到最大化利用,优化电力供应与散热系统,保障硬件长时间稳定运行,助力湖北移动构建一个既能满足当前业务需求又能适应未来发展的智能计算平台。
在智算数据中心安装部署完成后,新华三集团项目服务团队对其进行了全面的系统测试和性能验证,包括但不限于GPU计算节点、算力网络、高性能存储系统等关键组件。通过严格的测试流程和评估标准,确保每一环节都达到甚至超越设计要求,为智算中心的正式上线运行提供了有力保障。
网络是智算中心数据传输的命脉。新华三集团提供7×24小时的网络故障报警响应机制,确保网络问题迅速定位和解决;利用专业的故障排查工具进行诊断,实时监测网络关键指标,收集和分析性能数据,提前发现潜在问题并采取针对性措施加以解决;同时,定期检查并升级网络设备固件,制定合理的固件升级计划,确保设备的安全性和性能稳定性,为智算中心的数据通信提供高速、稳定、可靠的网络环境。
GPU卡作为智算中心的核心计算资源,其稳定性和性能直接关系到整个系统的运行效率。项目服务团队围绕硬件健康监测与维护、驱动管理与更新、性能优化与调整、故障排除与维修等维度,为GPU卡提供全面运维服务,实现GPU卡健康状态管理,保障高可用性,满足智算中心高强度的计算需求。
针对大型语言模型(LLM)在GPU计算节点上的高效运行需求,新华三集团提供了专业的驱动/CUDA版本评估和验证服务。从安装GPU卡驱动、部署CUDA开发工具包,到优化计算性能、集成开发工具和库,确保LLM在CUDA环境中的稳定性和可靠性。这不仅充分发挥了硬件的性能优势,还为人工智能模型的训练和推理提供了稳定的动力支持。
重构智算时代运维体系
在当前大模型等AI应用呈井喷式增长的背景下,智算中心作为承载AI算力的核心载体,其规划建设与运维模式正经历颠覆性变革。传统数据中心“稳定优先”的运维理念,已无法满足大模型时代对高弹性、高能效、高可管理性及高安全性的多维要求。
中国移动智算中心(武汉)在规划建设之初,旨在支持人工智能计算平台建设,围绕智算组网、业务验证、产品组织进行规模验证,并为大模型提供训练和试验环境。基于GPU算力与算力网络等技术深度协同,项目成功构建LLM训练集群,并提出系统性效能提升方案,最大化提升算力资源的使用效率,也为AI模型的训练和应用提供充分支持。
为确保项目的成功实施及高效运维,湖北移动携手新华三集团,基于新华三全场景的AIO智算运维服务方案,形成了涵盖架构搭建、门户管理、运维细化、人员培训、技术保障、自动化运维、规范制定、系统测试、驱动优化、网络运维和硬件保障等全方位、高效能智算运维服务体系。
●明确运维架构,打造协同高效的运维团队
新华三集团与湖北移动共同明确了由移动集团总部、省公司、云能力中心建立“部省专”一体化协同运维团队,构建矩阵式运维模式。新的运维架构设计确保了运维工作的高效协同与精准执行,能够快速响应各类运维需求,从整体上保障智算中心的稳定运行,为后续各项运维服务的开展奠定了坚实的组织基础。
●统一运维门户,实现多平台集中管理
项目整合移动云 4A 管控平台、智维平台门户、智算管控平台、集团多云平台、运维管理系统、H3C HDM 等多个门户管理平台,实现了运维管理的集中化与可视化。通过统一的运维门户,运维人员能够便捷地获取各类系统信息,实时监控设备状态、资源使用情况以及业务运行数据等,大大提高了运维管理效率和决策科学性,使运维工作更加有条不紊。
●规范化运维体系赋能,全方位保障系统稳定
新华三集团依托项目运维经验丰富的专家资源,赋能中国移动自有人员实践培训,打造专业智算运维人才队伍,实现技术疑难问题快速闭环,为后续智算中心的体系化运维储备高质量人才;同时,通过深度分析智算中心机房环境、硬件设备、资源规划、应急管理、故障申报处理、投诉响应、业务支撑、客户管理、安全管理等运维场景,明确运维管理规范,使日常管理工作有章可循、有据可依,确保整体系统安全稳定、高效运行。
从传统通信机房到智能算力中枢,从设备运维到算力服务,中国移动智算中心(武汉)的运维服务进化之路揭示着AI新基建的深层逻辑:以技术服务商的全栈能力为支点,以运营商的场景资源为杠杆,共同撬动智能计算的无限可能。
- 瑞士邀战荣耀之旅,全职高手展现中国电竞风采
- 停车找位进入“AI时代”,捷停车上线DeepSeek停车助手,一句话匹配服务
- 全球Robotaxi第一股文远知行交出亮眼答卷:Q1毛利率35%持续领跑行业
- 股掌柜咨询:轮胎行业高景气延续 全球化布局加速
- 只需提问即可生成周报、总结 飞书发布AI新功能知识问答
- 下沉市场外卖新势力,跑腿快车在巨头阴影下的本土创新
- 2025京东净饮水行业峰会在京举行 多方共话高质量发展
- Followme全球交易大赛16赛季开启!10万美元等你赢!
- 兰州马拉松赛事开启在即 来京东展区打卡互动赢精美礼品
- 京东2024年回收旧家电超2000万台助力绿色发展 京东618以旧换新至高减50%
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。