算力荒緩解,自主化智算還有必要嗎?

2023年大煉模型興起,全球範圍內都出現了算力供不應求、一卡難求的情況。各地紛紛興建數據中心、智算中心,來解決國產大模型的算力短缺問題。

今年算力市場又倒向了另一個方向,算力開始過剩和大量閒置了。

主要體現在,高端顯卡囤積居奇的生意不好做了,“GPU倒爺”的朋友圈已經從“欲購從速,過時不候”,變成了“A100/H100滯銷,幫幫我們”。而算力租賃市場,理想情況下的上架率應該是80%,但很多集羣只能達到30%甚至更低,投入大量資金建設的算力閒置,租不出去。

於是一種聲音開始甚囂塵上,認爲算力荒已經緩解了,供過於求,應該放慢自主化智算的建設。還有人說,智算中心建的太多了,大模型都用不完了。

發展自主化智算,到底還有沒有必要?

從短缺到過剩,算力是怎麼一步步閒置的?

還記得2023年算力荒焦灼、智算建設突飛猛進的時候,倪光南院士曾提到過:各地盲目建設各種低水平智算中心,讓人唏噓不已,一定要警惕“技術房地產”和“數字爛尾樓”。所謂“技術房地產”,就是算力資源賣不出去,只能變成一堆放着服務器的磚頭水泥房子,閒置在那裡。

短短一年多時間,從算力短缺到算力過剩,究竟是怎麼發生的?目前來看,閒置算力主要集中在三種情況:

1.用不起。英偉達的高端顯卡GPU是AI訓練的首選,2023年一度一卡難求。以N卡爲主的智算資源閒置,一是因爲巨頭們此前已經大量囤積採購了GPU,需求減少;二是炒作之後價格昂貴,即使價格回落,中小企業還是用不起。在很多討論“算力過剩”的評論區,我們總能看到“降價試試”的留言,說明高端AI算力的需求仍在,只是昂貴的N卡被價格勸退了。

2.不好用。國產卡組成的算力集羣,也存在上架率不高、資源閒置的問題,主要是不好用。因爲國產卡的集中度不高,一個千卡或萬卡集羣,往往是由各類國產算力卡組成的,異構算力之間的協同調度,涉及大量工程化細節,沒有做好就無法開箱即用。勉強用了,又時不時出現業務中斷、算效不高、恢復訓練慢等各種問題,導致客戶流失。這類被迫閒置的國產算力,正是沒有考慮配套,盲目建設的低水平智算中心。

3.用不上。“百模大戰”之後,企業不再大煉模型,預訓練的算力需求也就大幅下降,算力市場開始轉向以推理算力爲主。但推理市場的爆發,需要一個過程,目前AI的行業滲透率還比較低,總體不到10%,很多企業對AI的投入以嘗試爲主,還沒有大規模爆發。所以,訓練用算力開始出現閒置,而推理用算力還未大規模崛起,因此短缺問題尚未完全顯現。

低水平算力的閒置與過剩,再一次警醒我們:一個繁榮健康的算力市場,關鍵不是建出來,而是用起來。

自主化智算,不能標註“已完成”

這種情況下,仍然大力發展自主化智算,還有必要嗎?

我們認爲,這個問題的答案不該有猶豫,要旗幟鮮明地,鼓勵自主化智算基礎設施的繼續建設、加速建設。

首先,從長期看,國內智算屬於後發,基礎仍然薄弱。

中國智算的進步速度是很快的,但也要客觀看到,美國這樣的IT先行者,從20世紀90年代以來就在IT建設上大力投入。根據彼得森國際經濟研究所的消息,在2024年美國在電子製造業建設方面(主要是芯片)的投資,就超過了1996年至2020年(24年的時間跨度)的總投資。而產業界,xAI、Meta、OpenAI等海外AI巨頭,都在積極佈局十萬卡、五十萬卡規模的智算集羣。

所以,國內自主化智算近年來的發展雖然迅猛,也是在積極補課,打牢基礎。這時候如果停止,不僅會前功盡棄,還會讓中美在AI基礎設施上的差距進一步拉大。

從近期看,自主化AI算力需求仍然沒有得到充分滿足,算力荒仍在。

一方面,海外AI算力進口受到限制,極不穩定。目前,國內AI訓練芯片市場英偉達佔據了80%~80%的市場份額,要避免威脅供應鏈安全,這種情況必須儘快改變。上海的“算力浦江”智算行動實施方案(2024—2025年)要在2025年,實現新建智算中心的國產算力芯片使用佔比超過50%;《北京市算力基礎設施建設實施方案(2024—2027年)》則提出,2027年要具備100%自主可控智算中心建設能力。

三年左右,從不到20%發展到100%。所以,如今的自主化智算不是太多了,而是還不夠。

與此同時,算力需求仍在增長。大模型的規模法則仍在繼續,以Sora爲代表的視頻生成模型對算力的需求量是LLM大模型的數倍,已經出現了“一棟樓放不下一個模型”“一個模型需要多個集羣”的情況,超萬卡智算中心是必不可少的基礎設施,目前國內的十萬卡集羣還遠遠不足。

此外,大煉模型的階段雖然結束了,但基礎模型的市場集中度提高和能力提高,又會釋放AI應用需求,促進AI的行業滲透率、普及率,導致AI推理算力的需求爆發,急需要更多高質量算力來滿足。目前部分國產AI算力集羣的利用率極高,西安昇騰智能科技有限公司的人工智算中心算力使用率就高達98.5%;曙光在長沙的5A級智算中心,也吸引上百家企業入駐,實現萬餘個商業應用接入。因此,隨着產業智能化升級的繼續推進,國產AI算力荒不是已經解決,而是從現在開始重視和應對。

互聯網產業的核心,當然不是寬帶和機房,但沒有“寬帶高速公路”,就沒有美國互聯網經濟的爆發;移動互聯網的核心,也不是基站,但沒有廣泛覆蓋的4G基站,就沒有智能手機和移動應用軟件的興起。AI大模型也是一樣, AI作爲一種依附在基礎設施之上的軟件技術,核心不是智算,但沒有自主化智算,國內AI絕不可能獨善其身、獨自蓬勃發展。

因此,自主化智算並不存在過剩,更不該就此放慢發展。

承上啓下,高質量智算接下來怎麼建?

綜上,“國內AI算力過剩”,是個假問題,“如何合理地推進自主化智算的建設”,纔是真問題。

解決這個真問題,國內智算產業已經來到了承上啓下的新階段。不僅要追求把智算中心“建起來”,還要能運營好、用起來。

因此,智算廠商的競爭,也從售賣硬件資源與智算解決方案,轉變爲多維度、綜合性、長期服務的競爭。比如華爲昇騰AI全棧、中科曙光的“立體計算”、寧暢的“全局智算”、聯想的“萬全生態”,新華三的“1+N”智算等,以更全面的能力,支撐自主化智算的建設運營。

追求全面,並不意味着鬍子眉毛一把抓,目前來看,智算廠商們主要集中解決自主化AI算力的幾個痛點問題:

1.異構問題。目前,國產AI芯片還無法規模化出貨,市場集中度較低,因此都是以混合算力的形式,來加入智算集羣。多元異構算力的協同調度、管理、算效、業務可靠性等,面臨很多技術挑戰。如果一個企業或開發者,要針對ABCD不同廠商的卡進行適配開發,是不可能的。所以,就需要智算廠商提供相應的系統平臺,屏蔽底層異構硬件的複雜性,讓大家用好國產算卡。比如聯想的萬全異構智算平臺,實現異構化AI算力的管理與調配;新華三面向異構智算的智能管理平臺,一站式應對多樣化的AI應用場景。

2.算效問題。解決“低質量算力過剩,自主化高質量算力不足”的結構性問題,需要進一步提高國產AI的性能。面對工藝製程的限制,可以通過軟硬件系統的無縫配合,從而實現國產算卡性能的充分釋放。以昇騰爲例,就與昇思緊密結合,爲各類智算場景提供高性能的自主化AI算力,深圳鵬城實驗室的“鵬城雲腦Ⅱ”就依託昇騰實現了中國首個自主可控的E級智能算力平臺,可以提供不低於1000Pops的整機AI計算能力。

3.運營問題。如今,一些地方在智算中心建設之前,開始提出上架率、收益率等要求,需要保證項目投運後有一定的使用率。同時,也會要求建設方提供設計、使用、運營等一體化服務,避免智算中心因無人運營而成爲“數字爛尾樓”。以用促建、以服促用,已經是自主化智算髮展的必然潮流。比如新華三與杭州市合作,打造“圖靈小鎮”,培育AIGC產業和數字人才;中科曙光“立體計算”主張“算力建設、應用賦能、生態共生”三位一體,推動多元算力向新質生產力轉化,目前已經在5A級智算中心落地實踐。

回顧這一年多來,國內智算的發展突飛猛進,取得了舉世矚目的成績,我們不必再爲算力荒而憂心忡忡。但人無遠慮必有近憂,AI算力的自主化之路不能就此戛然而止,而要一鼓作氣,再加把勁,把已經取得的成果夯實,爲接下來的智能浪潮做好準備。

避免低質量算力過剩,與加速自主化智算髮展,這兩件事可以並行不悖,也應該理性分開看待。