國產算力適配先進算法創新
今年1月,中國人工智能公司深度求索發佈了令人矚目的DeepSeek-R1模型,採取創新的MoE架構和高效的訓練方法,使得其在保持高性能的同時實現了較低的算力需求。這是大模型平衡規模與效率的一次重要探索,衆多主流大模型企業也紛紛加碼MoE架構創新。
近日,科大訊飛攜手華爲在國產算力領域取得重大進展,雙方聯合團隊率先突破國產算力集羣上MoE模型的大規模跨節點專家並行集羣推理。這是繼DeepSeek公佈其MoE模型訓練推理方案後,業界首個基於國產算力的全新解決方案。
“術業有專攻”的MoE模型
想要了解科大訊飛與華爲的這次突破的意義,需要先了解一下什麼是MoE模型。
MoE模型全稱Mixture of Experts,即混合專家模型,是一種先進的神經網絡架構,旨在通過整合多個模型或“專家”的預測來提升整體模型性能。MoE模型的核心工作設計思路是“術業有專攻”,通過將輸入數據分配給不同的專家子模型,然後將所有子模型的輸出進行合併,以生成最終結果。
通俗來說,就是這個大模型內部有一羣擅長不同技術的“專家”,當我們遇到問題時,系統就會分析問題、把大問題拆解成一個個小問題,然後選出一個“專家組合”,讓不同的專家解答對應的小問題,“專業的人幹專業的事”,再形成最終的答案。
舉個例子,MoE模型類似一個酒店的後廚,後廚裡面有徽菜、川菜、粵菜等不同菜系的大廚,這些大廚就是專家。客人點完菜,後廚接到任務後,就由對應菜系的大廚來做。
那麼問題來了,當一個客人下了單,需要做很多道菜,該怎麼合理分工、佈置任務,讓徽菜大廚只做徽菜,而不是分工錯誤去做了川菜?
這就需要提到MoE模型的一個關鍵組成部分——門控網絡。門控網絡就像是一個智能“調度員”,可以根據輸入數據的特徵進行動態調整,確保每個專家處理其最擅長的數據類型或任務,從而更高效、準確地工作。
門控網絡就像後廚中的廚師長,不需要自己做菜,但是他很清楚每個廚師的能力,會根據客人的點單,安排擅長做不同菜的廚師來工作,避免資源浪費。
因此,MoE模型的一個優勢就是減少計算成本,比傳統模型訓練成本更低,提高模型性能。
加碼MoE架構創新
近年來,MoE大模型架構憑藉平衡大模型訓推成本和計算效率等優勢,更適合處理大規模數據和複雜任務,成爲字節、阿里以及科大訊飛等國內主流大模型企業紛紛加碼的對象。從通信優化到國產算力適配,一場圍繞效率與生態的競逐賽已然展開。
3月1日,DeepSeek發佈了“開源周”後的“彩蛋”,首次公佈了模型降本增效的技術細節以及理論上高達545%的利潤率。
DeepSeek通過MoE架構的創新讓激活參數比大幅下降,使得同等效果的大模型所需的算力明顯下降。“DeepSeek的671B參數模型在處理每個問題時,實際被激活的專家模型參數僅約37B,算力需求降低至傳統架構的約二十分之一。”一位業內人士指出。
技術角逐中,國內主流AI企業紛紛跟上。3月6日,阿里雲發佈並開源了全新的推理模型通義千問QwQ-32B。阿里雲稱,該模型採用密集架構(Dense),儘管參數僅爲32B,但性能卻能與滿血版DeepSeek-R1這類MoE模型相媲美。
“不過,MoE架構雖然能有效降低算力消耗,但在分佈式訓練過程中,仍然面臨着跨設備通信開銷巨大的挑戰。”科大訊飛有關負責人表示。
近日,科大訊飛與華爲的聯合團隊率先突破國產算力集羣上MoE模型的大規模跨節點專家並行集羣推理。聯合團隊通過軟硬件的深度協同創新,在多個關鍵技術層面深挖硬件潛力,完成昇騰集羣上的驗證和部署。
通過算子融合、混合並行策略和通信計算並行優化等一系列創新,科大訊飛在國產算力上實現了顯著性能提升:單卡靜態內存佔用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%。
國產算力迎發展機遇
DeepSeek成爲“國產大模型之光”,引發現象級關注,根源在於其算法上實現了諸多引領行業的創新,並且選擇了開源,但其背後所用的仍然是英偉達提供的算力。
近期我國人工智能和大模型產業受到遏制和打壓不斷升級,在這一背景下,以DeepSeek爲代表的國產大模型的算法突破,能否與國產算力支撐適配,顯然已經成爲一項事關我國大模型和人工智能長遠發展的急務。
基於此次科大訊飛攜手華爲所做的首個基於國產算力的MoE模型訓推方案,科大訊飛稱,這一突破性的解決方案也將應用於訊飛星火深度推理模型的訓練加速,預期訓練時推理效率將提升200%。同時,基於該方案的推理引擎也實現了國產算力上DeepSeek-V3和R1的高效推理。
值得注意的是,近期,科大訊飛深度推理大模型星火X1也完成升級,在模型參數量比業界同行少一個數量級的情況下,星火X1的數學能力全面對標DeepSeek-R1和OpenAI o1,在中文數學各項任務中均實現領先。科大訊飛始終堅定走國產化道路,星火X1也是當前唯一採用全國產算力訓練的深度推理大模型。
算力供應是AI技術的底層支撐,自主可控方能“防患於未然”。從DeepSeek點燃開源之火,到字節、阿里爭相技術共享,再到科大訊飛實現國產算力突破,國內MoE賽道已形成“效率迭代”與“自主可控”的雙重敘事。
國產算力突破關乎技術主權與供應鏈安全,在AI基礎設施競爭白熱化的當下,戰略意義顯而易見。
不少諮詢機構的研報均指出,DeepSeek等頭部模型的發展讓AI應用加速落地,持續放大算力需求,同時降低AI行業進入門檻與成本,長期看將推動總需求上升而非下降,加速推理算力需求的提升。AI算力國產化勢在必行,國產算力迎來重要發展機遇。
(記者 許昊傑 通訊員 許可亮)