近日,中國電信云計算研究院在云存儲與數據中心資源管理領域取得研究突破,由湯聞達、王一多、王彥文、吳杰研究團隊完成的《Leave No One Behind: Fair and Efficient Tiered Memory Management for Multi-Applications》,王一多、湯聞達、孟令航、李梁、吳杰研究團隊完成的《Origami: Efficient ML-Driven Metadata Load Balancing for Distributed File Systems》兩篇論文,同時被并行處理領域最老牌的國際頂級會議 ICPP 2025 接收。這兩項研究分別聚焦分級內存管理與元數據管理難題,為云基礎設施優化提供了創新性解決方案,彰顯了中國電信在云計算核心技術領域的前沿探索能力。
在數據中心內存資源優化方向,湯聞達等人針對多租戶環境下不同應用間的內存資源競爭問題,提出了工作負載感知的分級內存管理框架。創新性地構建了基于負載特征的用戶態內存頁面遷移與快速內存容量公平分配機制,從內存資源管理、頁面遷移策略設計、頁表結構優化到頁面遷移機制優化實現了全面創新。有效解決了現有方案中因忽視應用特性差異而陷入“冷頁困境”(即在多租負載共置環境下,關鍵負載的重要頁面因訪問頻率相對較低被誤判為“冷”,從而被遷移到慢速內存,導致關鍵業務性能受損)的問題。
圖1:面向多租負載共置的分級內存管理架構示意
框架利用PEBS(Performance Event-Based Sampling)技術實時采集與分析負載的內存頁面訪問特征,并結合eBPF機制,靈活調整內存頁面遷移策略,以適應不同負載的訪存特性。特別是在 QoS 保障方面,通過 Fast Tier Hit Ratio實時度量分級效果與快慢內存容量的動態分配策略,保障高優先級應用的內存訪問效率與資源的公平分配。這一技術突破為云計算和大數據場景下的資源隔離與性能優化提供了全新思路,有望在云平臺、新型算力網絡等場景中實現規模化應用。
王一多等人針對云上分布式存儲系統中海量元數據管理的效率瓶頸,提出了機器學習驅動的元數據負載均衡框架 Origami。該框架突破了傳統方法僅關注元數據均勻劃分的局限性,首次以最小化用戶作業完成時間為核心目標,實現均衡的過程中充分考慮了元數據的局部性特征與層次結構。該框架包括實時數據收集、近似最優決策計算、高效模型訓練以及模型驗證等步驟,最終在負載均衡收益與訪問開銷之間實現了較好的權衡。
圖2:面向元數據負載均衡的模型訓練框架Origami整體架構
實驗數據表明,Origami 框架有效解決了分布式文件系統中因層次化命名空間和動態負載導致的訪問熱點問題,相比傳統方案大幅降低了用戶端到端操作的完成時延。這一成果將智能技術與云存儲系統深度融合,未來可廣泛應用于云存儲、數據中心及泛在存儲等場景,為構建低延遲、高并發的存儲架構提供了關鍵技術支撐。
ACM ICPP(International Conference on Parallel Processing)作為并行與分布式計算領域的國際頂級會議(CCF推薦B類),其收錄論文需經過國際權威學者的嚴格評審。本次中國電信云計算研究院同時斬獲兩項成果,充分體現了其在系統結構、資源管理等方向的研究深度。ICPP 2025將于9月8日-11日在美國圣地亞哥召開,屆時我院研究團隊將與全球學者共同探討智能云基礎設施的技術前沿。