近日,中國互聯網協會在北京舉辦第六屆“數字發展論壇”。論壇以“數據要素驅動高質量發展”為主題,匯聚國內200余位頂尖專家學者、行業精英和企業代表,深入交流與探討數字發展趨勢、機遇挑戰、案例經驗,國務院原副秘書長江小涓、中國工程院院士鄔賀銓等專家參會。中國電信科技委主任邵廣祿應邀在論壇中進行“AI和數據驅動,加速高質量發展”主旨演講,分享了中國電信在人工智能和數據開放方面的實踐和體會。
中國電信科技委主任、中國電信集團原總經理邵廣祿
科技革命引發全要素生產率(TFP)快速提升的“蝴蝶效應”,蒸汽機、電力、IT互聯網是歷史上三次科技革命的“蝴蝶”,邵廣祿指出,人工智能將成為新的“蝴蝶”推動新一輪科技革命和產業變革,AI和數據驅動正催生市值數量級增長的企業。在人工智能發展過程中,面臨高性能與異構算力、高質量數據集等挑戰。在實踐中,中國電信總結算力方面需要攻克很多技術難點,譬如萬卡集群線性加速、網絡與調度能力、穩定性與故障恢復能力、并行資源調度能力等。中國電信在AI產業早布局,快發展,全面布局AI大模型,持續攻克萬卡算力、息壤算力調度平臺、數據要素平臺、星辰系列大模型以及行業大模型等核心技術,并積極開源星辰大模型和開放中文數據集 TeleChat-PTD。
在人工智能由“模型中心”轉向“數據中心”過程中,邵廣祿指出,數據集是大模型構建的基石,在大模型開發中越來越重要。面對數據集構建中“量不足、質不高、用不暢”的三大挑戰,在實踐中,我們總結發現高質量的數據集的生產是個系統工程,會涉及六個方面。一是數據底座,包含云、網、隱私計算等;二是數據采集,當前網頁數據比較成熟,但中文數據質量不高,特別需要生態合作開放數據集,如政府、事業單位及垂直領域的數據。三是數據預處理和分級分類。四是數據標注,需要產業化發展來提供更大范圍更高質量的數據集。五是預訓練的配比。六是高質量數據集的篩選。這六大方面對大模型的性能與準確度和智能水平具有決定性影響。
同行同業的數據集合就是行業的數據集,其價值遠高于一個企業的數據價值,數據價值倍增。邵廣祿提到,中國電信與溫州醫療合作數據開放共享,大力提升醫療水平,如通過AI質控提高圖像質量來避免患者重復檢查;中國電信與中國聯通通過5G共建共享合作實踐,三年節省千億數量級投資,每年節省百億數量級運營成本。
邵廣祿提出,通過開源開放、共享資源、共享收益,來減少企業重復建設和成本投入,促進數據集的共建共享,促進人工智能大模型的共建共享,通過AI和數據驅動,加速高質量發展。