近日,中國電信與上海交通大學云計算聯(lián)合實驗室在算力平臺根技術方向取得重要進展,其研究團隊的論文《Joint Prediction and Matching for Computing Resource Exchange Platforms》被并行與分布式處理領域最具歷史的頂級會議——ICPP 2025(International Conference on Parallel Processing)正式接收。這一成果聚焦解決算力服務平臺中“算力高效度量”與“智能任務匹配”的核心難題,為未來的智能算力調度技術奠定了堅實理論基礎。
隨著以大模型為代表的新一代人工智能技術的快速發(fā)展,計算密集型任務對算力資源的需求持續(xù)快速增長。天翼云基于多年技術積累在業(yè)界率先推出息壤算力調度平臺,為算力互聯(lián)互通和跨域共享提供了創(chuàng)新解決方案,同時在匯聚第三方資源、實現(xiàn)任務智能調度的過程中,也面臨如何準確評估集群性能并高效完成任務匹配等技術挑戰(zhàn)。
中國電信云計算研究院與上海交大電子信息與電氣工程學院于2024年4月共同成立云計算聯(lián)合實驗室,致力于從實際生產(chǎn)業(yè)務中凝練抽象科學問題,發(fā)揮雙方各自優(yōu)勢共同開展云計算前沿領域的理論和技術研究。本篇論文研究團隊由上海交通大學計算機學院、中國電信云計算研究院以及天翼云科技有限公司“息壤”產(chǎn)品線共同組成,團隊成員主要包括中國電信首席科學家/云計算研究院院長吳杰教授、黃瀟瑤研究員,上海交通大學計算機學院常務副院長吳帆教授、鄭臻哲教授、霍達博士,天翼云智算平臺事業(yè)部副總經(jīng)理鄢智勇、胡建鋒總監(jiān)、陳浩研究員。
聯(lián)合研究團隊經(jīng)過深入分析,針對傳統(tǒng)“先預測、再匹配”的兩階段架構可能帶來的匹配誤差,提出了面向任務匹配優(yōu)化的性能預測方法MFCP(Matching-Focused Cluster Performance Predictor),通過端到端訓練機制,實現(xiàn)了性能評估與任務分配過程的一體化優(yōu)化,顯著降低了因預測誤差導致的匹配失效。同時,研究團隊在模型訓練過程中引入梯度近似計算、連續(xù)優(yōu)化松弛等多項優(yōu)化技術,突破了復雜調度算法經(jīng)常出現(xiàn)的不可導難題。在多個實驗場景中,MFCP方法在任務匹配準確性、資源利用率和調度魯棒性方面相較傳統(tǒng)方法均表現(xiàn)出顯著優(yōu)勢,有望進一步提升息壤算力調度平臺的運營效能。
圖1:預測與匹配的傳統(tǒng)分離模式與MFCP的整合模式
ACM ICPP(International Conference on Parallel Processing)是并行與分布式計算領域的國際頂級會議(CCF推薦B類),其收錄論文需經(jīng)過國際權威學者的嚴格評審,對論文創(chuàng)新性、技術深度及工程可行性要求極高。本論文的成功入選,代表著科研團隊在算力服務平臺關鍵問題研究方面獲得國際學術界高度認可,也體現(xiàn)出產(chǎn)研協(xié)同在復雜系統(tǒng)關鍵技術攻關中的重要作用。未來,聯(lián)合實驗室將繼續(xù)聚焦“問題導向、技術突破、落地應用”的科研模式,持續(xù)深化在算力管理和資源調度等關鍵技術方向的研究,攻克更多核心技術難題,實現(xiàn)產(chǎn)學研創(chuàng)新鏈合作共贏。