近年來,隨著各行業數智轉型逐步深入以及人工智能大模型的蓬勃發展,氣象分析、大模型訓練、自動駕駛、石油勘探、EDA仿真、基因分析等高性能計算(HPC)場景和智算場景(AI)不僅對算力需求激增,也產生了圖片、視頻等大規模非結構性數據,企業在實踐中面臨著數據量大、存儲性能不足等問題,導致訓練阻塞、算力利用率低甚至訓練中斷現象頻繁發生。在此背景下,企業需要不斷創新和優化存儲系統技術架構,以便實現更加高效、可靠和靈活的存儲解決方案。
作為云服務國家隊,天翼云堅持科技創新,不斷加快推進數據存儲基礎設施建設,創新推出并行文件服務HPFS(CT-HPFS,High Performance File Storage),助力企業構建高性能存儲底座。天翼云HPFS支持全NVMe閃存和InfiniBand高速網絡,并融入RDMA技術,可提供最高千萬IOPS和TBps吞吐,同時保證亞毫秒時延。該產品具有高性能、高可靠性、高可擴展性的特點,可充分滿足企業在HPC和AI等場景下的存儲需求。
天翼云HPFS具備共享訪問、彈性擴展、安全可信、性能優越四大產品優勢。
在共享訪問方面
HPFS支持數千臺客戶端掛載同一文件系統,從而實現共享訪問;無縫適配主流應用程序進行數據讀寫,滿足多客戶端并行計算場景需求。
在彈性擴展方面
HPFS元數據采用集群架構,單文件系統文件數量可達百億級別,文件系統支持在線擴展。
在安全方面
HPFS采用多種EC糾刪碼方式、熱備盤備份來保證數據的可靠性。同時,支持HA,故障時自動切換,服務可用性在99.90%以上,有效保障數據安全。
在性能方面
HPFS使用100G以太網或IB、RoCE網絡,性能隨文件系統容量增長呈線性提升,同時可保證亞毫秒時延。
天翼云HPFS在高性能并行文件存儲方向持續突破,面向HPC/AI場景大規模非結構化數據及性能深度優化,保障用戶數據安全、實現高效存儲。
在HPC場景,天翼云HPFS支持并行計算MPI-I/O(Message Passing Interface)接口,在多客戶端同一時間并發讀寫同一個文件時,通過字節粒度鎖機制,保證文件一致性,大幅提高多客戶端讀寫同一文件的性能。
在AI應用領域,天翼云HPFS支持萬億參數大模型,助力客戶構建高速大模型訓練平臺,根據不同AI業務流程特點,靈活調用存儲服務能力,滿足數據預處理、訓練、仿真等數據存儲能力的要求,并大幅提升訓練數據讀取和checkpoint回寫速度,降低企業AI訓練成本投入,加速模型迭代。
未來,天翼云將繼續加大數據存儲產品技術創新,以扎實的數據存儲能力,為客戶打造高性能存儲底座,持續推動技術創新與產業協同發展,為構建安全、高效的數據基礎設施貢獻力量。