中国电信依托 800G 光传输网络在现网实现业界首例千卡分布···

2024/09/04

   近期,在中国电信集团的统筹安排下,中国电信研究院、北京电信以及天翼云携手合作,在中国电信现网中运用 800G C+L 技术,为规模达 1024 卡的分布式集群提供了大容量带宽,成功实现 120 公里距离下的千亿参数大模型分布式训练,其性能达到集中训练的 95%以上,有力地验证了大带宽、高可靠且高效率的光传输网络能够为智算互联构筑坚实基础。


   当下,随着智算卡的数量迈向千卡、万卡级别,所需带宽常常高达百 T 比特级甚至超 P 比特级。故而,光传输系统具备的大带宽、高可靠以及高效率特性,成为保障分布式训练实现高算效的关键要点。在应对数据传输的大带宽需求方面,采用高阶调制格式的单波长 800G 技术来提升频谱效率,同时结合当前业界备受关注的 “C+L” 波段技术以实现超大传输带宽。在中国电信天津武清与润泽机房之间运用华为公司的传输设备,经过多次环回构建起了具备大带宽互联能力的智算验证网络,距离长达 120 公里。在解决数据传输的高可靠问题上,完成了链路误码、波长故障、光纤故障等异常测试实验。实验结果显示,一个 800G 业务波中断会致使算效降低超过 40%,而百毫秒级以上的光纤故障会导致算效大幅下滑甚至训练中断。通过采用 WSON 重路由恢复技术,此次将两点间的重路由恢复时间控制在了 50ms 以内,能够确保分布式智算业务的高可靠互联,最大程度地释放算效。针对传输链路的高效率问题,中国电信推出了分钟级波长动态拆建解决方案,以实现算与网的协同分时复用,有效提高网络资源的利用率。此次验证为跨地域、跨层级、跨主体的高可靠算力协同调度奠定了基础,也标志着中国电信的 “云网融合” 工作取得了新的突破。


   未来,中国电信将持续创新,始终践行 “以网强算” 的技术路径,通过建设大带宽、高可靠和高效率的光传输网络来打造智算互联的光层基础,加速推进云网融合一体化数字基础设施建设,开拓出一条具有中国电信特色的新型智算基础设施发展道路,助力千行百业实现智能化升级。


   声明:本站所使用的图片文字等素材均来源于互联网共享平台,并不代表本站观点及立场,如有侵权或异议请及时联系我们删除。