近日,權威大模型評測基準SuperCLUE發布最新《中文大模型基準測評2024年10月報告》。其中,由中國電信打造的星辰語義大模型TeleChat2,作為央企大模型代表,憑借出色效果,綜合能力位列大模型第一梯隊。TeleChat2在理科“工具調用”維度排名前二,在Agent智能體總榜排名并列第二。
數據來源:SuperCLUE
TeleChat2-35B以更小參數量和更佳效果獲得開源模型排行榜銅牌,綜合效果超過Llama-3.1-70B-Instruc和 Llama-3.2-90B-Instruct等較大參數模型。
數據來源:SuperCLUE
星辰語義大模型由中國電信創新研發并不斷迭代突破。TeleChat2系列是在星辰語義大模型TeleChat發布以來推出的第二代版本。
今年9月,TeleAI正式發布并開源了首個基于全國產化萬卡集群和國產深度學習框架訓練的千億參數大模型 TeleChat2-115B,近日又進一步開源了TeleChat2-3B、7B和35B,以適配不同場景的應用需求,構建了全尺寸大模型開源布局。
超強工具使用及Agent能力
本次最新的SuperCLUE10月報告覆蓋43個國內外有代表性的大模型,采用多維度、多層次的綜合性測評方案,由理科、文科和Hard任務三大維度構成,評測題目總量超過2900道。理科任務方面,TeleChat2展現了極強的函數調用能力,在工具調用維度排名前二。文科任務方面,TeleChat2在語言理解、長文本等維度表現突出。Hard任務方面,TeleChat2在指令遵循維度表現優異,展現了優秀的復雜推理能力。
為了提高模型性能,TeleAI團隊在數據維度和后訓練階段進行了優化。在數學能力方面,通過抽取知識點合成問答數據,并結合數學RM(獎勵模型)篩選高質量數據。在代碼能力方面,抽取高質量代碼函數合成功能實現代碼,并通過單元測試確保代碼質量。對于指令遵循能力,通過指令進化構建大量數據并進行腳本校驗,從而大幅提升模型效果。在后訓練階段,通過模型微調、權重融合和DPO(直接偏好優化)進一步提升效果。微調階段,使用IFD(指令跟隨難度)和 RFT(拒絕采樣微調)篩選數據,并迭代優化模型。權重融合階段,結合多個模型的優勢獲得新權重。DPO優化階段,專注于中等難度問題,迭代補齊模型能力。
不僅如此,TeleChat2系列模型還完成了Agent能力建設,重點加強了模型在指令跟隨、任務拆解、工具調用等方面的能力和表現。在10月的SuperCLUEAgent總榜中,TeleChat2排名并列第二。
數據來源:SuperCLUE
TeleAI團隊構建了一個基于圖結構和MutltiAgent(多智能體)的框架,通過細分工具場景,創建詳細的依賴關系圖,從而提升訓練數據的真實性和復雜度。
同時,利用MultiAgent的增強交互多樣性,并通過規則檢查,確保交互合理。此外,團隊還將工具調用能力分為多個階段,為每個階段設計多樣化數據,以避免模型僅學習表面格式,這使得模型效果提升了約15%。
全尺寸開源布局 適配多場景落地
TeleAI始終積極通過開源推動大模型技術創新和國產化進程,并為產業持續輸送領先的技術能力,加速應用落地。早在今年前半年,就陸續開源了1B、7B、12B和52B參數的第一代TeleChat系列模型。最近,TeleChat2系列也已完成 3B、7B、35B和115B模型開源,逐步構建了全尺寸開源布局,并吸引了國內外廣大開發者的討論和使用。
憑借卓越的性能和開源生態貢獻,星辰語義大模型在 Gitee開源社區獲得了“GVP-Gitee最有價值開源項目”。前不久,星辰大模型還被中國信息通信研究院(信通院)授予“可信開源大模型成熟度能力”認證和“2024年度央國企開源項目典型案例”稱號。
憑借不同的參數配置和靈活的架構設計,TeleChat2系列模型可靈活適配于不同應用場景、不同資源配置、不同延時條件、不同響應速度的多樣化需求。目前,星辰語義大模型系列已在政務服務、智慧教育、經營分析、公文寫作等領域廣泛應用落地。
在政務場景,星辰語義大模型已應用于智能知識庫、智能受理助手、智能分類助手、智能客服機器人、智能語音座席助手等,助力政務工作提升工作效率。
在教育領域,星辰語義大模型落地教育聽力機,輔助學生進行英語口語對話練習、中英文寫作、中文詩歌創作等,提升他們的學習興趣和個性化體驗。
在智慧辦公場景,基于星辰語義大模型的超強語義理解和總結能力,星辰慧記一站式會議助手能夠一鍵提煉會議紀要,實現會后總結秒生成,推動企業更高效、更智能發展。
在本次參選SuperCLUE10月榜單的43個大模型企業中,TeleAI是唯一的央企大模型機構,同時TeleChat2系列大模型是基于全國產化萬卡集群和國產深度學習框架訓練完成。
開源地址:
GitHub:
https://github.com/Tele-AI/TeleChat2
Gitee:
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
https://modelers.cn/models/TeleAI/TeleChat2-115B