商湯絕影智駕大模型,突圍“三重門”

Who、How and Why?

這三點,往往是一本偵探推理小說最大的樂趣。小說末尾,作者會問兇手到底是誰,預測兇手,把整部作品的精彩推向最高潮。

這和智駕大模型的邏輯,是一樣的。推理兇手,需要對整本書有完整的理解,兇手判斷難度越大,故事越精彩,正如預測下一個Token,內容越豐富,信息越多,難度越大,需要上千億參數的大規模模型去完成。

上週,《汽車公社》/《C次元》採訪了商湯科技聯合創始人、首席科學家、絕影智能汽車事業羣總裁王曉剛先生,他以偵探小說作比喻,引出了商湯絕影目前正在攻克的智駕端到端大模型難題。

剛結束的WAIC 2024世界人工智能大會,商湯絕影攜多款最新智能駕駛和智能座艙產品亮相,這些產品均基於全新發布的商湯“日日新5.5”原生多模態大模型打造,同時,商湯絕影在業內率先實現原生多模態大模型的車端部署。

王曉剛認爲,端到端大模型是智能駕駛領域的“ChatGPT時刻”,通用能力和涌現能力極強。真正的“端到端”大模型,實現難度很大,商湯絕影正走在難而正確的路上。

真正的“端到端”,究竟難在哪

一是,演進階段不同。

從感知端到端、兩段式端到端、模塊化端到端到單一神經網絡模型的One Model端到端,難度遞增,不同的企業,選擇從不同的階段切入,雖然都號稱“端到端”,但做到單一端到端的玩家卻極少。

二是,算力部署不同。

車企陣營,特斯拉DOJO智算中心可謂一騎絕塵,預計到2024年10 月,部署的總算力將達到10萬PFLOPS,智駕供應商陣營,商湯算力優勢明顯,預計年底能達到2萬PFLOPS。

三是,工程化能力不同。

對於車載大模型,只有好的技術和理念,沒有紮實的工程化落地是不行的。和主機廠合作,驗證工程化能力,也是大模型端到端綜合實力的核心要素。

能都做到真正的One Model?算力是否足夠?工程化能力和落地能力如何?這是“端到端”的三個難點,也是智駕供應商們待破的“三重門”。如何推開每一扇門,不僅考驗團隊管理層的格局,也考驗團隊研發的前瞻性思考。

難而正確的那條路

現階段,特斯拉在內的汽車製造商都在探索端到端技術,以此作爲智駕技術的制高點,但根據輸入到輸出的實現形式,方案和路徑選擇卻各有不同——

在不同的演進階段,端到端從廣義到狹義,可以大致分爲感知端到端、決策規劃模型化、模塊化端到端以及單一模型(One Model) 端到端,越往後,難度越大,能留在牌桌上的玩家也更少。

大部分企業目前在做的,是把自動駕駛各模塊用神經網絡替代,然後再把神經網絡串聯起來,進行聯合優化。如兩段式端到端,感知用一個模型,控制決策規劃用一個模型,和整個能囊括輸入到輸出的單一大模型還有不少差距。

分段式端到端,有天然的短板。

一個,是信息損失。

王曉剛告訴《汽車公社》/《C次元》,分段式端到端的每一個模塊,都會出現大量的信息損失和過濾。“從感知傳到決策規劃,信息量已經是變得非常少了,那麼用於做決策規劃模型的體積,就比感知模型要小几倍,甚至一個數量級。”

信息傳遞有過濾和丟失,明面上雖然降低了難度,但也拉低了能力的上限。真正的One Model端到端,難度是非常高的,當然天花板也很高。

二是,訓練方式差異。

嚴格意義上講,分段式並非真正的大模型,且訓練方式也傳統,就算使用了龐大參數,也難以發揮其效用,和ChatGPT的訓練方式有本質區別。

“大模型的能力,不僅在於其規模,更在於訓練方式和任務。”實現這一點需要強大的基礎設施能力,如特斯拉擁有10萬塊GPU,大部分主機廠GPU數量遠不及此,存在2~3個數量級的差距。”

“這是被驗證成功的唯一路徑。”

在王曉剛看來,真正的端到端大模型,是通向自動駕駛ChatGPT的一個路徑,且是被驗證成功的唯一路徑。

雖是唯一路徑,並不是每一家主機廠都能把路走通。一方面,訓練大模型需長時間積累,耗資巨大,如一次實驗可能需幾千張GPU卡,投入上億,主機廠缺乏此方面的積累。

另一方面,即使主機廠未來嘗試訓練大模型,也可能不划算。商湯這樣的智駕供應商,可以通過各行業分攤大模型成本,但主機廠訓練的大模型只能自用。除非像特斯拉涉足多行業,否則,少有汽車主機廠能承擔如此高昂的費用。

算力,競速(參數丨圖片)大模型的關鍵

主流的分段式端到端,如果後續想轉成單網式,是有一定難度的。王曉剛認爲,僅從訓練方式看,二者所需要的基礎設施完全不同。

“ChatGPT級任務,需大量數據準備與清洗,主機廠和部分智駕供應商,其現有的GPU總量遠遠不夠。”未來,考慮到持續的大規模投入,通用大模型的競爭者將越來越少。

王曉剛透露,商湯2019年的算力規模爲700 PFLOPS,今年年底原計劃18000 PFLOPS,但從現階段的實際部署看,最終可以達到20000 PFLOPS。

五年間,算力變化非常快。

王曉剛告訴《汽車公社》/《C次元》,算力是被行業需求推動的,2022年ChatGPT橫空出世,整個行業對尺度定律的認知、對算力的需求都出現爆發性的增長,且至今還沒看到增長的盡頭。

“大腦約有860億個神經元,每個神經元有1000個突觸,累計相當於百萬億到千萬億的參數量級。今天智駕大模型的參數,距離大腦鏈接還是差遠了,尺度定律目前也還沒有飽和,我們還沒看到天花板,讓算力的快速增長提供了可能。”

沒有算力儲備,談大模型就像空中樓閣,現階段,商湯人工智能超算中心目前有45000塊GPU,峰值算力12000 PFLOPS。

這樣的算力儲備,已遠超國內智駕供應商,對於商湯來說,面對這樣的算力部署,還需考慮如何充分利用GPU效率——

並不是所有的GPU都必須滿負荷運轉,商湯需要設計合適的調度方案,讓任務空閒中的GPU也能利用起來。“因爲我們的基數體量大,具備規模化優勢,幾萬塊GPU,哪怕是10%-20%的空閒利用率,算下來也是非常可觀的。”

基於龐大的算力部署,商湯絕影能夠以雲側、端雲結合、端側等全棧方式靈活部署多模態大模型,讓商湯原生多模態能力快速落地智能汽車。

算力中心=高投入

無論是智算中心,還是大模型,都是高投入的燒錢巨坑,且需長期的積累。商湯從2018年啓動大模型研發,從剛開始,就意識到軟硬件基礎設施建設的重要性,後面累計用了6年的時間,做到現在的算力規模,投入非常龐大。

這引申出另一個話題:大模型時代的供應鏈範式。

何小鵬曾提過一個判斷,大模型時代難有Tier1,王曉剛也認可這樣的觀點。他分析說,傳統的Tier1集成不同功能模塊,提供給主機廠,但大模型時代,自動駕駛前端和座艙已沒有多模塊訴求了,都在講一體化,合作的模式,也將演變爲主機廠、芯片廠商和AI廠商三者聯動。

“特斯拉已經擁有10萬塊GPU,但目前很多車廠只有幾百塊、一千塊的規模,小規模集羣不夠用,倒逼着不斷新集羣,更加集中化,去提升效率。”

考慮到大模型本身是長期投入的過程,車廠獨立構建自己的智算中心,去做大模型基礎研發,是難以持續的。在王曉剛看來,更好的模式是尋找AI公司合作,避免重複性投入,大家做各自擅長的事。

工程化能力護城河

智能汽車向大模型的方向發展,是很有價值的事情,但也是一個長跑的過程。這意味着,能不能伴隨主機廠共同成長,持續在一條路上長久投入和突破,更是關鍵。

在商湯絕影的價值觀裡,紮實的工程化落地能力,並不亞於大模型研發的重要性。做智駕和座艙大模型,光有好的技術和好的理念,沒有紮實的工程化落地是不行的。

商湯絕影脫胎於AI文化,過去幾年深耕汽車行業,通過與主機廠的合作,工程化能力進步很快,這也構成了獨一無二的護城河。

一方面,是人才。

王曉剛表示,通過與汽車製造商合作,商湯絕影補入一批汽車行業的專業人才,與原有的AI人才融合,補齊工程化能力。

另一方面,是趨勢。

在商湯絕影看來,未來的車載大模型,車端的工程化會逐漸減弱,而後臺的基礎設施則會變得更重要。

“工程化能力,涵蓋了數據的選擇、清洗以及系統的穩定性等多個方面,這恰恰是不少車廠和供應商目前的短板所在。在大模型時代,我們面臨各方面的新挑戰,任何宣稱自己具備工程化能力的企業,都需要踏實下來,明確具體是哪一方面的工程化能力。”

可以肯定的是,人才越來越重要。

王曉剛告訴我們,現階段,推動大模型“上車”的參與方,主要是車廠、高校和科技公司,企業承擔了大部分大模型科技成果轉化工作。商湯絕影和商湯研究院聯動,背後也關係到基礎設施建設,但訓練大模型的專業化人才,其實幾十個人就夠。

人才也需要自我迭代。

前段時間,蔚來智駕研發部完成架構調整,此前分爲感知、規控和集成等部分,調整後,感知和規控團隊合併爲大模型團隊,集成團隊重組爲交付團隊。

這意味着,越來越多的車企,將放棄業界沿用多年的“感知-決策-規控”技術路線,更明確地探索端到端大模型實現高階智能駕駛。

“新時代到來,大家都要做好準。”

王曉剛坦言,他自己是人工智能1.0時代的人,最初的業務模式,有智慧城市,也有手機等終端。

“當公司面臨大模型轉型,做研發、基礎設施和數據準備,1.0時代的部門迅速收縮。即使到了2.0時代,市場上有很多精通大模型訓練的人才,但本質上,這些精英都是靠不斷擁抱變化、不斷自我學習進步的,並不是天生就懂大模型。”

現階段,商湯絕影大部分人力都鋪在大模型業務,但規則算法作爲智駕的保底,也是需要的,團隊不能完全拋棄現有團隊。一支強大的混合型團隊,纔是考驗端到端上車的關鍵。

而衝破三重障礙的商湯絕影,已經爲下一輪的角逐做好準備。