貫徹算力普惠化目標,移動雲持續加快數字化基礎設施建設腳步
在2024中國算力大會“協同共建,打造算力產業鏈”主論壇上,中國移動正式宣佈移動雲算網大腦規模化商用,憑藉統一管理和智能調度能力,算網大腦將不斷對社會各方算力資源的匯聚和應用,進而持續推動算力成爲像水、電一樣的社會級服務。在算力逐漸成爲推動經濟社會發展的新質生產力之際,作爲雲計算“國家隊”,移動雲不斷加快算力基礎設施建設腳步,並依託自研可控的先進技術打造出算網大腦,推動多元異構算力融合發展,進而逐步構建出網絡化、普惠化、綠色化的算力網發展格局,爲全社會數智化升級提供多元泛在、智能敏捷的算力服務。
從“通”到“智”,打造全面算力供給能力
爲提升算力綜合供給能力,助推產業轉型升級,移動雲一方面基於“4+N+31+X”通算資源佈局加速直管資源池及各級節點建設,另一方面,移動雲還以“N+X”不斷強化智算算力基礎設施佈局,並陸續投產首批智算中心節點。目前,移動雲已在全國上線40個直管資源池,並建設了23箇中心節點和17個省級節點,部署超1000萬核vCPU,通算規模達到8.2EFLOPS(FP32),而隨着呼和浩特、武漢、哈爾濱等13個智算中心陸續投入使用,移動雲智算算力規模已高達19.6EFLOPS(FP16),全面夯實了產業發展的數智基石。
此外,爲實現從“算”到“智”的跨越式發展,移動雲還通過研發創新,成功攻關大規模集羣管控調度、全棧加速及智算集羣穩定性保障三大關鍵技術,構建10萬卡多元異構算力的統一納管及萬卡GPU容器資源秒級調度拉起能力。基於此,此前投產使用的中國移動智算中心(哈爾濱)具備1.8萬卡超大規模雲化納管、萬卡並行訓練以及分鐘級斷點自動續訓能力,能夠大幅提升大模型訓練的效率與穩定性。而在移動雲將LLaMA、GPT、GLM等數十款主流模型成功遷移上雲後,該智算中心還具備大模型預訓練——遷移——精調微調——推理全流程調優能力,能夠以算力+技術+定製化方案全面支撐大模型技術的落地應用。
雲納百川,以智能化算力調度能力推動社會算力整合
隨着“東數西算”工程的啓動,我國算力不均衡問題得到顯著改善,並初步形成算力集約化態勢。但社會算力分散、協調機制不健全、網絡通道質量不穩定等因素,難以實現全國化算力資源調用。爲此,中國移動聯合國家超算、智算中心及產業合作伙伴共同發起“百川”併網行動,併發布百川算力併網平臺。而通過移動雲算網大腦,該平臺能夠實現算力、存力、運力、能力的一體感知和實時呈現,還能夠對通、智、超、量等算網資源進行全量納管併爲用戶提供一站式智能訂購服務。
目前,移動雲算網大腦已覆蓋300+城市的網絡鏈路,具備從2M到10G的網絡帶寬分鐘級彈性開通,能夠基於成本、性能、容量、位置、能效等多類要素對算力進行智能化、精準化調度,從而提供算網服務“最優解”。作爲我國十大算力集羣之一,蕪湖集羣算力公共服務平臺憑藉算網大腦的智能化全域調度能力成功實現“一點建設、服務全省、支持全國”目標,成爲我國首個集通算、智算、超算、量算“四算合一”的調度平臺。此後,移動雲還將以算網大腦對貴州、蘇州、成都等樞紐級和省市級算力調度平臺提供能力支撐。
能效升級,以綠色算力推動可持續發展
在人工智能、大數據等技術廣泛應用之際,千行百業對算力供給需求日益提升,數據中心的IT設備能耗也隨之大幅上升。數據顯示,目前CPU單芯片功耗已達到350W,GPU單芯片功耗更是高達700W,我國數據中心的電費在整體運維總成本中佔比高達60%至70%。因此,算力基礎設施亟須通過先進液冷技術來保持適宜的操作溫度,並降低能源消耗。
爲加速數據中心節能減排,促進產業可持續發展,移動雲自主研發全解耦液冷技術,制定液冷服務器、液冷機櫃、液冷管路和液冷數據中心設施的解耦方案,並通過充分解耦液冷技術的整個供應鏈,形成了標準化、白盒化的液冷方案。目前,該方案已成功應用於移動雲智算中心,能夠有效降低機房散熱50%+,節約空調電費50%+,提升服務器算力5%—10%,並將數據中心能源使用效率(PUE)值降至1.25以下,以“散熱革命”打造出節能高效的綠色算力。
從通算資源佈局到智算中心建設,從資源智能化調度到算力基礎設施能效升級,自中國移動提出算力網絡概念以來,移動雲始終以“算力泛在、算網共生、融數注智、一體服務”爲目標,加速並完善算力基礎設施建設,並通過打造算網大腦,推動算網服務向集約化、服務化、智能化發展。未來,移動雲將持續攻關多要素編排、算網感知、算網能力開發等關鍵技術,加速構建全國一體化算力體系,從而爲產業數智化轉型升級提供源源不斷的算網資源。