有卡不等於有算力?模型參數擴張帶動對AI infra訴求 多芯異構成趨勢|行業動態

財聯社9月10日訊(記者 付靜)“我們如何高效地構建一個智算中心,是不是有卡就足夠了?答案是完全不夠的。”近日,財聯社記者在騰訊(00700.HK)全球數字生態大會上聽到了這一對話。

財聯社記者觀察到,AI算力需求巨幅增長,雲計算廠商、通信運營商、芯片廠商乃至衆多跨界玩家均瞄準了智算的蛋糕,不過,算力規模上升,性能卻未必快速線性增長,同時一些新的技術和功能挑戰出現。當下,“大集羣不等於大算力”的觀點正引發業內諸多討論。

騰訊雲副總裁沙開波在接受財聯社記者採訪時談到了AI智算領域的新趨勢:大模型參數規模持續增加,需要有更多、更大的算力集羣滿足訓練訴求,對整個AI infra性能的要求更高;AI的場景越來越廣泛,會出現更多對AI infra或雲基礎設施的訴求。

由此,騰訊雲正式發佈AI infra品牌“騰訊雲智算”。財聯社記者瞭解到,隨着集羣規模增長,大模型廠商基於GPU集羣做訓練,要做到單卡吞吐不下降、算力閒置不降低等,軟件層面可以做一定優化。

“很多行業本身對數據安全合規有很強的訴求,包括用於訓練推理的數據可能只有在本地數據中心裡才能使用,這個就要求我們很多的能力,很多產品要能夠在它的環境裡面私有化部署。”沙開波同時告訴財聯社記者。

不過沙開波亦明確表示,算力能發揮出多少,上限取決於硬件或芯片本身的性能,不是通過軟件可以避免的,軟件可以優化的方向是幫助發揮硬件的更多性能。

他分析,即便具備硬件資源,配套軟件能力仍缺乏,疊加沒有實際的終端客戶或應用場景等原因,就造成了業內目前出現的智算需求持續增長,智算中心卻閒置的現象。

此前財聯社記者從業內人士方面獲悉,只有用戶願意來使用算力,纔有人願意來運營,智算中心投資建設方纔能收回成本,形成可持續發展的閉環。

與此同時記者注意到,多芯異構是另一大趨勢。

據悉,騰訊雲智算集結了國內外前沿芯片,今年騰訊全球數字生態大會上,英特爾、英偉達、AMD在內的大廠紛紛以合作伙伴身份亮相,騰訊雲智算還宣佈和國產算力企業燧原科技在內的多方共建產業高效能雲智算中心。沙開波告訴財聯社記者,需要通過“多芯兼容”滿足更多的國產化訴求,同時緩解卡的供給風險。

會議期間,財聯社記者通過英特爾技術人士獲悉,公司正與騰訊雲在AI領域深入合作。“騰訊雲現在的計算實例的一些主力產品如S5、S6、C6、S8、M8都是用至強處理器。”據瞭解,當前大部分廠商訓練、推理所使用的是第四代、第五代英特爾至強,今年6月第六代至強能效核發布,下半年將發佈的第六代性能核可用於6B、7B、13B的模型推理。

同時,騰訊雲方面表示,“各大芯片廠商不斷地加大在GPU上的投入和佈局,越來越多的智算中心裡,不同型號、不同廠商的卡放在一起異構組網的情況越來越普遍,需要網絡的解決方案解決好異構組網場景,更好地發揮出算力的效率。”騰訊雲將推出搭載至強6處理器的新一代雲實例,基於星星海自研服務器及網絡架構的升級,在社交媒體、遊戲、數據庫、短視頻等應用場景進行性能提升。

據悉,騰訊雲智算整合了騰訊雲高性能計算HCC、高性能網絡IHN星脈、高性能雲存儲、加速框架、容器、向量數據庫、智算套件等騰訊雲產品。穩定性和性能方面,騰訊雲集羣千卡單日故障數刷新到0.16,1分鐘完成萬卡checkpoint寫入,千卡集羣的通信時間縮短到6%。

財聯社記者瞭解到,目前騰訊雲智算已服務了月之暗面、智譜AI在內的90%以上國內頭部大模型企業。例如,基於騰訊雲高性能計算集羣HCC、高性能網絡IHN星脈及安全解決方案,智譜AI模型訓練集羣效提升3.23倍,內容審覈準確率提升17%,5分鐘GPU服務器故障可自動恢復。

此外,記者從元象科技方面瞭解到,其最新版本MoE模型用數百億級別預算量達到了數千億級別的模型效果。“我們公有云上有個大模型客戶,用了騰訊雲智算的大模型訓練集羣解決方案之後,一年的千卡成本可以下降2000萬這樣的量級。”沙開波還告訴記者。