AI算力提高,高能耗和難散熱問題如何突破?

隨着AI技術的廣泛應用,從智能手機到自動駕駛汽車,從智能家居到工業自動化,AI供電芯片的需求量正呈爆炸式增長。它不僅爲AI系統提供穩定的電力供應,確保系統的正常運行,而且還肩負着節能減排、降低能耗的重任。

然而隨着算力需求的提升,AI設備的能耗、散熱等問題凸顯,這無疑給AI供電芯片帶來了新的挑戰,如何實現高效率、低功耗、持續穩定的供電成爲了業界關注的焦點。

能耗“突飛猛進”:算力比拼加速,能耗日益攀升

算力核心設備由傳統的CPU向GPU的轉移,不僅提升了計算效率,更使得複雜的數據處理和深度學習模型得以實現。然而,高性能往往伴隨着高能耗。在追求更快計算速度的同時,GPU的能耗也在不斷上升,給數據中心和服務器帶來了巨大的能源壓力。荷蘭數據科學家Alex de Vries在專注能源研究的學術期刊《Joule》上發表的一項研究顯示,按照當前趨勢,到2027年,整個人工智能行業每年將消耗85至134太瓦時的電力(1太瓦時=10億千瓦時)。

散熱“力不從心”:高性能AI芯片的燙手難題

高性能的AI芯片在運行過程中會產生大量熱量,如果不能及時有效地散熱,不僅會影響設備的穩定運行,還可能縮短其使用壽命,制約AI算力的進一步增長。未來,單顆高性能AI芯片的熱設計功耗將突破1000W,達到了傳統風冷散熱的極限。因此,各大公司紛紛投入研發,探索更有效的散熱解決方案,例如行業巨頭們正在推進的液冷技術等。

可靠性“搖擺不定”:大模型訓練,AI芯片一損俱損

AI應用對芯片的性能與可靠性要求非常高。爲了完成一個大模型的訓練任務,通常需要幾千張甚至幾萬張計算卡進行級聯,提供充足的算力。如果有一張卡出了問題,那麼整個大模型的訓練都會受到影響。如何定位到失效的板卡也是非常費時費力的工作,嚴重影響訓練的效率。

MPS AI電源解決方案的四大突破,助力化解上述難題

MPS深耕計算領域多年,從筆記本、臺式機到自動計算平臺,再到數據中心服務器,與各大平臺都有緊密的合作。隨着傳統數據中心通過集成AI技術來實現智能化升級,MPS也在快速迭代電源方案,爲行業和客戶提供高品質、可靠的AI電源解決方案,適用於AI 推理卡、訓練卡、邊緣計算設備、超算服務器等各類應用場景。

△圖1:MPS AI硬件電源解決方案

△圖2:MPS典型AI電源應用

突破一:體量更緊湊、功率密度更高、配電損耗更低

MPS的AI電源方案採用創新設計,體量更緊湊,配電損耗更低,使數據中心在給定機櫃範圍內的計算能力得以提升。

相比競爭對手的方案,MPS的功率轉換技術在主板上佔用的空間更小,這樣所有處理器能更緊密地結合爲一體,在更小的空間內實現更強的計算能力。下圖是MPS新型開放式框架電源模塊Intelli-Module™的3D概念圖,展現了高度集成的數字多相電源模塊。

△圖3:高度集成的Intelli-Module™

MPS 專注改善數據中心的功率密度,因爲數據中心面臨着人工智能等新計算應用的更大功率需求。以創新手段提升功率密度意味着減小配電損耗,從而降低數據中心的總運營成本、單次計算輸出的總成本以及碳排放。而機櫃數量減少後,數據中心的物理佔用空間也能最大限度地縮減。

130A、兩相、非隔離式降壓電源模塊MPC22167-130是MPS Intelli-Module™系列的最新產品,它將 DrMOS、電感和其他無源元件集成到單個封裝中,不僅佔位面積小,功率密度還提高了2.5 倍。而且,它允許將多相穩壓器(VR)放置在更靠近處理器的位置,從而減少了配電網絡 (PDN) 的損耗(見圖4)。

△圖4: Intelli-Module™ 與 DrMOS 的佔板面積比較

多個 MPC22167-130 器件可與第一級電源模塊配合使用,以支持端到端的電源解決方案,同時能夠滿足AI 處理器的高功率要求。下圖展示了採用 MPC22167-130 實現的參考設計示例。

△圖5:具有 48V 輸入和 0.8V 輸出的 2000A OAM 外形規格參考設計

該參考設計可應用於OAM 形態的 AI 處理器,它採用 MPC22167-130 支持 2000A 的最大輸出電流 (IOUT),其中第二級方案的設計採用了MPC22167-130 與 數字16 相控制器MP2891的組合方案。

想要獲取更多方案信息與技術資源,可掃碼免費下載MPS AI電源資料包~

突破二:電源轉換效率更高、頂部散熱設計兼容液冷

爲了解決高功率密度電源模塊中的散熱問題,MPS多管齊下:一方面優化內部結構和器件設計,提升電源轉換效率,降低功耗,同時減少熱量產生,確保設備穩定運行;另一方面,將模塊做成頂部散熱,方便散熱器的設計;不僅如此,器件還能兼容液冷的應用,藉助液冷增強服務器散熱效果,從而進一步發揮電源的極致性能,使單機櫃功率大幅提升。

△圖6:MPS磁芯設計對電源模塊效率的影響

突破三:嚴密的仿真計算、嚴格的出廠測試

AI芯片批量的一致性和可靠性是非常重要的,沒有多年的經驗積累和嚴格的市場檢驗,是磨礪不出好的AI電源的。MPS在設計階段,會通過仿真和理論計算,確定所有器件的工作條件,從而選取合適的電子器件。採用高電流等級、高耐壓的電子器件,內部電感爲MPS專利設計,飽和電流高。而在研發階段,MPS則採用不同批次的模塊產品進行可靠性實驗,出廠前會逐項測試模塊電氣性能及參數,最後還會進行老化測試及前後參數對比分析。

△圖7: MP2891 和MPC22167-130 的 SIMPLIS 模型

△圖8:SIMPLIS 仿真與實驗室測量的比較,誤差僅爲 5mV

突破四:實用的仿真工具、專業的技術支持、靈活的供應鏈管理

MPS能夠提供很多好用的前期評估工具,如PDN仿真工具、仿真模型、靈活的GUI等,在前期和後期都能協助客戶更方便地進行方案測試,確保精準落地。

△圖9:由 MPS 支持的用戶測試可視化界面(GUI)

同時,MPS的工程師也將全程提供專業的技術支持,幫助客戶及時解決實際應用中遇到的難題。另外,MPS採用供應鏈multi-source管理,提高供應鏈的靈活性和自主性,優化生產工藝,以保證充足的產能,支撐AI對芯片大規模用量的需求。

MPS 電源方案,助力每一個人工智能(AI)硬件系統!

MPS 的AI電源解決方案提高了數據中心的計算能力,創新型電源架構方法增大了每個機櫃的功率密度,減小了服務器的配電損耗,在提升AI算力的同時有效降低能耗,從而助力節省能源和降低運行成本。另外,兼容液冷應用的設計、芯片的一致性與可靠性保障、便捷好用的仿真工具、專業及時的技術支持、靈活自主的供應鏈等衆多優勢,也能夠讓客戶在設計方案時更省時、更安心!

想要獲取更多方案信息與技術資源,可掃碼免費下載MPS AI電源資料包~