5月31日,全新智算管控平台在中国移动智算中心(呼和浩特)上线。移动云智算管控平台专注提升智算中心AI业务稳定性和运行效率,打造了智算集群端网一体化性能监控与调优工具链能力,实现了对AI训练任务全面可视、可管的监控管理,能够做到训前集群健康状态一站式检查、训中任务粒度的实时监控、训后故障快速定位恢复。
随着大模型参数从千亿增至万亿,并从单模态扩展至多模态,所需的算力集群规模也从千卡跃升至万卡级别,随之而来的模型训练稳定性降低和成本增加的问题日益凸显。
移动云智算管控平台通过健康巡检一键化、训练任务可视化、故障诊断专家化等核心优势,有效提升训练稳定性、降低训练成本,为大模型训练保驾护航。
大幅提升稳定性
全生命周期守护大模型训练
千卡/万卡级别的算力集群汇聚了数百万个器件,其训练过程中任何单一器件故障都极易造成整个模型训练的中断。据统计,由于故障频发,大模型的实际有效训练时间仅达到30%至50%。
移动云智算管控平台可大幅提升训练任务稳定性,在中国移动内部大模型训练中成功保障千卡集群稳定运行20天以上,处于国内前列。
移动云智算管控平台具备健康巡检一键化、训练任务可视化的核心优势,全程护航大模型稳定训练。
健康巡检一键化:
平台共计提供100+健康检查项,覆盖端网一体的一键健康检查,涵盖全量及单模块监测,支持训前、训中、训后的全生命周期健康检查和性能分析。实现故障节点的快速感知优化,提升训练任务成功率。
训练任务可视化:
平台打造了AI训练任务的监管视图,能够可视化展示任务训练进度、训练关键指标,具备秒级时延的异常感知和上报能力,触发任务训练平台的断点续训。
有效降低成本
构建丰富的智算调优知识储备
基础大模型的训练周期往往长达数月,而业界大模型稳定训练平均时长仅达到天级。由于故障模式复杂多样,难以迅速定位与界定,每次故障修复耗时可能长达1至30天;且算力资源较为昂贵,一个万卡集群的闲置损失将超过300万元/天。
移动云智算管控平台不仅能够提升大模型训练稳定性、降低故障频次,还具备故障诊断专家化的突出优势。
故障诊断专家化:
平台精心构建专家知识库,深度整合了数百位训练调优专家的实战经验,打通英伟达、昇腾等厂商开源生态的知识数据,通过实现故障的高效定位,达到 90%的故障快速恢复,将训练成本降低三分之一。
一直以来,移动云持续攻坚智算领域关键核心技术、为我国人工智能产业发展构筑强大数字底座。移动云以大算力赋能大模型,规划“N+X”大规模智算基础设施体系,全网智算规模达到17EFLOPS(FP16)。其中,在呼和浩特投产的全球运营商最大单体液冷智算中心,曾入选2023年度央企十大超级工程。同时,打造涵盖IaaS/PaaS/MaaS/SaaS的全栈智算产品体系,为不同行业提供便捷高效的一体化算网服务。
未来,移动云将继续强化智算布局,深化技术研发与应用创新,为新质生产力发展贡献力量。