近日,中國電信云網融合工作取得新突破。中國電信集團公司統一組織中國電信北京公司、中國電信研究院,在現網完成業內首例智算長距無損互聯技術驗證,分布式訓練性能達到集中式單智算中心訓練性能的90%以上,證實了分布式無損智算網技術方向的可行性,充分發揮出中國電信云網融合的優勢。
大模型的參數規模每18個月提升10倍,驅動智算中心建設規模從萬卡,邁入十萬乃至百萬卡,單體數據中心的算力、空間、供電等資源難以滿足需求。中國電信一直走在智算基礎設施建設的前列,集團云網發展部在業界率先提出通過長距無損智算網構建分布式智算集群的創新方向,并將其納入到科創重點攻關課題。而當前業內大模型訓練網絡最遠無損傳輸距離不超過2公里,長距離無損傳輸一直是困擾業界的難題。
中國電信成立聯合項目攻關組,聚焦研究長距無損智算網絡技術。經過近一年的攻關,成功解決了超百公里無損智算網難題,智算DCN網絡由DC內走向廣域網,將物理上分散的智算資源整合成一個智算集群。聯合項目組嚴謹論證,扎實推進,于2023年8月份完成分布式無損智算網方案設計,同年10月份開始基于云網融合大科創裝置持續開展長距無損交換機技術驗證,2024年2月份在北京電信現網完成800G超高速波分技術驗證。通過不斷完善和優化,近日在實驗室完成萬億/十萬億級參數大模型分布式訓練仿真驗證,并在北京電信武清、永豐、瀛海三地IDC機房完成數百億參數經典大模型的分布式訓練任務,這將為京津冀等算力協同調度奠定基礎,促進數字經濟與實體經濟的深入融合。
未來,中國電信將繼續面向更大規模、更長距離的分布式智算網發起攻關,走出一條具備中國電信特色的新型智算基礎設施發展道路,賦能千行百業智能化升級。