近日,在中國電信集團(tuán)公司統(tǒng)一組織下,中國電信研究院、北京電信、天翼云共同在中國電信現(xiàn)網(wǎng)基于800G C+L技術(shù),為1024卡規(guī)模的分布式集群提供大容量帶寬,實(shí)現(xiàn)120公里千億參數(shù)大模型分布式訓(xùn)練,性能達(dá)到集中訓(xùn)練的95%以上,重點(diǎn)驗(yàn)證了大帶寬、高可靠和高效率的光傳輸網(wǎng)絡(luò)可為智算互聯(lián)構(gòu)建堅(jiān)實(shí)底座。
當(dāng)前,隨著智算卡數(shù)達(dá)到千卡、萬卡,所需帶寬往往高達(dá)百T比特級、超P比特級。因此,光傳輸系統(tǒng)的大帶寬、高可靠與高效率的特點(diǎn)是保證分布式訓(xùn)練高算效的關(guān)鍵。針對數(shù)據(jù)傳輸?shù)拇髱拞栴},采用高階調(diào)制格式的單波長800G技術(shù)以提高頻譜效率,配合當(dāng)前業(yè)界熱點(diǎn)的“C+L”波段技術(shù)實(shí)現(xiàn)超大傳輸帶寬,在中國電信天津武清與潤澤機(jī)房之間采用華為公司傳輸設(shè)備,通過多次環(huán)回構(gòu)建了大帶寬互聯(lián)的智算驗(yàn)證網(wǎng),距離達(dá)到120公里;針對數(shù)據(jù)傳輸?shù)母呖煽繂栴},完成了鏈路誤碼、波長故障、光纖故障等異常測試試驗(yàn),結(jié)果表明,一個(gè)800G業(yè)務(wù)波中斷會(huì)導(dǎo)致超40%的算效降低,而百毫秒級以上光纖故障會(huì)導(dǎo)致算效大幅下降甚至訓(xùn)練中斷,采用WSON重路由恢復(fù)技術(shù),此次在兩點(diǎn)間將重路由恢復(fù)時(shí)間控制在50ms以內(nèi),可保證分布式智算業(yè)務(wù)的高可靠互聯(lián),最大限度釋放算效;針對傳輸鏈路的高效率問題,中國電信提出分鐘級波長動(dòng)態(tài)拆建解決方案來實(shí)現(xiàn)算與網(wǎng)的協(xié)同分時(shí)復(fù)用,有效提升網(wǎng)絡(luò)資源利用率。此次驗(yàn)證為跨地域、跨層級、跨主體高可靠的算力協(xié)同調(diào)度奠定基礎(chǔ),標(biāo)志著中國電信“云網(wǎng)融合”工作再上新臺(tái)階。
未來,中國電信將不斷創(chuàng)新,繼續(xù)踐行“以網(wǎng)強(qiáng)算”的技術(shù)路線,通過大帶寬、高可靠和高效率的光傳輸網(wǎng)絡(luò)建設(shè)打造智算互聯(lián)光層底座,加快推進(jìn)云網(wǎng)融合一體化數(shù)字基礎(chǔ)設(shè)施建設(shè),走出一條具有中國電信特色的新型智算基礎(chǔ)設(shè)施發(fā)展道路,賦能千行百業(yè)智能化升級。