商湯絕影副總裁許亮:打造基於大模型的座艙大腦,全方位感知構建第三移動空間

商湯絕影智能車艙副總裁許亮:AGI引領的未來智能座艙(來源:本站科技頻道)

文/普子胥

12月23日,第十屆以“智能涌現·發現未來”爲主題的本站未來大會,22日在杭州正式啓動。本次大會由杭州市人民政府和本站公司聯合主辦,杭州市經濟和信息化局、杭州市商務局、杭州市濱江區人民政府、北京本站傳媒有限公司及本站(杭州)網絡有限公司承辦。

本屆本站未來大會包括主論壇、AGI論壇、汽車科技論壇、靈感論壇、思想之夜、未來局等環節,大會廣邀頂級學者、產業專家和行業精英一道,爲您作答未來科技、人文藝術、時代個人在下一個十年無限精彩變化。

在12月23日汽車科技論壇上,商湯絕影智能車艙副總裁許亮發表了《AGI引領的未來智能座艙》主題演講。許亮表示,過去十年在商湯主導的四大板塊:智慧城市、智慧商業、智慧生活、智能汽車,人工智能得到了大量運用,商業化的模型超過3萬個。這些模型最大的特徵都是解決了單一的任務,這也給人工智能全面落地帶來挑戰:“由於定製產生的研發週期拉長以及模型研發過程中產生的成本。”

許亮表示,隨着GPT技術的應用,AI進入全新發展範式,整個行業都逐步在AGI時代做大量的轉型。當下商湯已經有超過3萬塊GPU,整個算力已經達到6500P,截至目前,能同時支持20多個超過千億參數大模型的訓練。

許亮談到,作爲汽車智能化的核心供應商,商湯絕影最重要解決的是三件事:智能駕駛、智能座艙、AI雲平臺。圍繞這三件事,許亮分享了一系列最近技術進展,並就AGI時代來臨大模型研發的最新趨勢,以及座艙接下來面臨的一些升級機遇進了探討。

以下爲商湯絕影智能車艙副總裁許亮演講實錄:

今天和大家分享商湯在大模型,以及在智能汽車領域對大模型應用的思考。

回顧過去十年人工智能的發展,十年前它是以人工智能突破人的肉眼、人的認知的工業紅線爲起點。2014年商湯首次在面部識別領域,突破肉眼的識別率,誕生了商湯科技,從此以後一批AI的應用陸續落地。但它同時也有一個問題,在過程當中需要針對每一個任務,對模型進行鍼對性的訓練。

從2012年開始到2022年這一段時間內,整個商湯聚焦的4大板塊:智慧城市、智慧商業、智慧生活、智能汽車,人工智能都得到大量的運用。我們也做過一些測算,過去10年裡,商湯已經商業化量產的模型超過3萬多個,用於各行各業。

這些模型最大的特徵都是解決了單一的任務,這也進而給人工智能的全面落地帶來挑戰:“由於定製產生的研發週期拉長以及模型研發過程中產生的成本。”2022年底,隨着GPT技術的鋪開,產生了AI新的範式,整個行業都開始AGI時代做大量的轉型。在這個過程中我們也看到一個巨大的機會,利用一個或者多個大模型架構,能夠去解決更多開放式的任務,這也幫助整個行業找到了很多新的探索點。尤其在智能汽車領域,也看到了很多產品研發和商業化落地的機遇。

從算力的維度來看,在小模型時代,從AlexNet到Transformer,這個過程中是增加了100倍。但從大模型時代開始,從Bert到GPT-4,它的算力差不多增加了1200多倍。而以特斯拉爲例,它今天大概擁有1.4萬塊GPU,到明年整個會到10萬塊GPU。我們也可以看到特斯拉引領純視覺的自動駕駛解決方案,加上數據閉環的優勢,再加上巨大的算力支撐,它的投資和投入的模式也給很多行業帶來一些思考。

對於大算力、大模型的投入,甚至和汽車行業結合的投入,也是產業裡要重點解決的問題。我們看到Google,包括OpenAI,包括國內很多公司,商湯也做了很多算力的佈局。商湯從2018年、2019年就開始佈局大算力。最早的時候,我們花了大概50多億在上海的臨港投入了算力中心時,很多人在問,作爲一個軟件公司爲什麼要投這樣大的算力。實際上我們在佈局這個算力的時候,已經在爲整個AGI時代做了前期的儲備。

截至目前,商湯擁有超過3萬塊GPU,整個算力已經達到6500 Petaflops。到明年,我們算力也計劃突破10000 Petaflops。我們不僅可以滿足商湯幾大內部核心板塊的業務發展和產品化落地研發需要,也把算力開放給社會,讓更多行業能夠在我們算力中心上做一些模型的訓練。商湯的算力中心現階段可同時支持20多個超過千億參數的大模型的訓練,這也是很好的AI算力生態的聯盟機制。

近一年,商湯發佈了一系列大模型,在GPT4(多模態大模型)發佈之前我們在今年3月已經開源了30億參數的多模態的大模型,也是當時業界開源裡面最強的多模態模型。今年4月份發佈了日日新大模型的體系,5月份的時候通才智能體取得了突破性進展,6月份語言大模型在各項評比中超越GPT3.5,6月份我們也發佈了全球第一個在自動駕駛領域端到端的UniAD大模型,它統一了感知、決策、推理、規劃一系列核心要素,實現了第一個大模型,在CVPR獲得最佳優秀論文,這是CVPR近三十年第一個以自動駕駛爲題材的最佳論文,也是從1萬篇候選當中選出來的。我們近期也會發布我們的世界模型,用於自動駕駛環境的生成和模擬仿真等等。

這是我們圍繞汽車領域做的一些思考,我們認爲作爲汽車智能化核心的供應商,重要解決的是三件事:智能駕駛、智能座艙、AI雲平臺。

1.在智能駕駛領域內,我們已經量產了L2+的高速領航技術,接下來會拓展到城區。我們也努力在推動無高精地圖的城市領航技術的拓展。

2.智能座艙領域內,接下來努力打造的重點即如何基於大模型開發一套座艙大腦,把所有座艙內多模態感知、多模態的角色全部整合到一起,提供一個更好的第三移動空間的管家服務。

3.AI雲平臺,我們希望把這些算力中心能夠打通,大量降低模型訓練的成本,支持千億大模型算力訓練的同時,也能把很多汽車上大量需要高算力支撐的場景通過“雲+端”的模式做一些延展和拓展。我們會把商湯的大裝置這樣的基礎設施開放給車廠和生態合作伙伴,助力汽車行業更好實現產業化與智能化。

這裡給大家展示的是大模型整體的研發體系,從模型的訓練到模型推理的部署、雲和端的結合,我們需要大幅降低推理的成本。在此基礎上有大模型的體系,包括數據的平臺、數據生產的管線,無論是通用的大模型還是行業的大模型,非常重要的就是數據的收集、數據的清理,這樣的話我們可以提供一整套深入到行業裡面的數據生產管線。再往上就是各種串聯層包括函數的調用、沙盒的環境、知識融合、安全和價值觀的對齊、MOE混合專家系統等等,再往上去支持自動駕駛、智能座艙、車路協同的應用。我們會把整個這套體系開放給我們的客戶我們的合作伙伴。

這是我們在今年首次推出的UniAD通用的自動駕駛模型,圍繞這個模型,我們把感知的預處理,從預測到決策實現了端到端。過去的自動駕駛整個系統裡面有感知、融合、定位、決策、規控等等很多模塊,在所有這些模塊裡只有感知部分依賴於神經網絡,依賴於數據驅動,其他模塊都是依靠手動的規則,今天有了UniAD的出現就實現了端到端的自動駕駛,一個神經網絡完成了所有的模塊,一旦所有的模塊都能用神經網絡實現的話,就能夠實現數據的驅動,因爲以往都是靠工程師編寫各種規則和補丁,解決自動駕駛裡面的各種corner case,現在可以通過數據的方式神經網絡進行驅動。

這是智能座艙,從座艙的角度來看我們也經歷了幾個時代:從最早發展初期,圍繞着AI座艙的感知,我們做了大量的DMS、OMS,包括健康伴侶和近場景感知的技術,也幫助很多車廠完成了首發的量產。這個非常驕傲,我們其中很多技術落地時,在整個行業,不僅僅是中國,在全球來看都是0到1的突破。

去年開始,我們專注在第三移動空間。這中間帶來的最大機會就是大量座艙APP的應用,以及多模態的交互,包括一些手勢、語音以及視覺的結合。接下來最重要努力的目標就是怎麼樣圍繞AGI大模型的能力,以及它的生態來構建一個智艙大腦。過程中,我們在產品研發、技術落地和產業化實踐上,也發現在智能座艙AI領域內找到一個比較好的落地場景,中國的電動車也給了這個行業落地巨大的助力。在這個過程中,我們也構建了一套完整的質量體系,幫助這些軟件能更好的落地汽車,並取得了一個較好的市場佔有率。

這是目前大模型推進的時間軸,從今年4月份首次發佈了日日新大模型開始,就把中間的一些思考在4月份上海車展上做了首次亮相。在那次車展上,我們把語言類大模型以及AIGC大模型第一次搬到座艙內。在7月份WAIC大會上,我們推出了衆多AI座艙APP產品,這些都是圍繞大模型的能力。今年9月份,我們非常高興帶着全棧的產品到德國參加了慕尼黑車展,我們發佈的產品模型裡面,它的功能已經增加到11個。今年10月份開始,我們圍繞這些大模型落地場景已經在很多頭部自主品牌上找到了一些定點的機會。接下來1-2年,我們就會看到大量圍繞大模型落地的產品進到車艙內,給大家帶來更多用戶的體驗。

這是我們認爲的智能座艙大腦核心架構,包括感知層面。語音技術已經發展了這麼多年,作爲比較好的人機交互方式也得到大量認可,所以語音大量運用於新的智能車上。接下來,主要介入的就是手勢控制,包括手勢技術,以及視覺技術,形成多模態的感知技術。這樣的感知技術就會把感知做得更準,圍繞着座艙環境能形成一個超強感知,就可以幫助我們在座艙大腦這樣一個概念上形成更好的決策依據。圍繞車主一些記憶模塊,包括一些長期的記憶和短期的記憶,最終在依靠雲+端的算力支撐,我們就可以形成比較好的“千人千面”的服務。接下來在整個交互界面上,我們會看到更多虛擬助手、虛擬管家,包括數字人這樣的生態進到座艙內,帶給大家更好的交互體驗。

這是整個流程圖,中間藍色區域從感知、分析、決策到記憶,這是接下來大模型要重點解決的問題。從傳感器的角度來說,座艙對於手機,相對於IOT,有更好的獨特性屬性。我們在座艙內有大量輸入的傳感器,以及攝像頭、語音輸入等,這都是我們的機會。座艙又是相對比較封閉的場景,當我們開車A到B過程中,在自動駕駛時代沒有完全來臨時,我們還是有大量注意力放在駕駛本身這件事情上。在解決安全駕駛使命過程中,我們會發現大量時間段能通過優化HMI的交互,優化場景理解,優化推理決策,幫助車主得到更多你想要的任務,更簡單獲得你想要的任務,這也是整個座艙大腦架構和流程圖上要完成的終極使命。

我們從大模型角度看一下它的獨特性優勢。大家可以看一下最左邊的複雜場景,這個場景用於自動駕駛場景。在做自動駕駛時,感知層面上我們很多是靠數據來驅動,所以會發現有大量的長尾問題和corner case需要解決掉。在這張圖裡面,結合這個圖片中間白色的小轎車周圍的環境,給出它應該有的駕駛的決策並作出解釋。我們的模型給出的反饋,前方有紅燈,有行人在穿行,前方有車輛在同行,左右有靜止的車輛,後面有救護車的出現,應該做出避讓救護車,讓救護車先行。在這樣的場景中,我們算法最終給出的建議是向左側變道,讓出當前的車道。在這樣一個複雜的環境當中,有很多種因素構成的情況下,我們的大模型會給到自動駕駛系統一個比較合理的決策。這些很難用基於現有的手動規則,去書寫自動駕駛的決策邏輯,對它們來說是很難完成的。

中間的case看到更多是座艙內的場景,比如說自動駕駛的策略,做一些加速、減速,急加速、急減速,甚至變道的策略時,我們是不是要考慮座艙內的環境。如果艙內有低齡的兒童,有嬰兒,我們這些策略是不是要做修正。這張圖上可以看到,它問的問題,兩個兒童是安全的嗎,可以看到他坐在安全座椅上,安全帶被完全固定的,這樣相對來說環境就是安全的。如果這兩個兒童坐在座椅上沒有系安全帶,就是完全不同的場景。對於座艙內的深度理解,相信這些感知信號會給到自動駕駛更好的輸入,來幫助我們對艙駕融合接下來終極的生態產生很多正向的引導和幫助。

截至目前,我們在智能座艙板塊已經發布了十多個基於大模型的產品應用,剛纔也提到通過如上海車展和德國車展,把它們帶給了很多客戶。我們發現在這些衆多大模型產品類別中,有很多車廠非常感興趣,我們也正在充分利用現有產品研發的優勢,與車企定製化去討論不同的應用場景,以及它如何爲不同的終端消費者帶來“千人千面”的價值。包括其中像AI說明書、兒童故事,包括旅遊攻略、隔空繪畫等,這些場景都找到了很好的落地機會。我們已經拿到了大量大模型項目在手,接下來1-2年這些項目都會落地,也帶給很多客戶更多的驚喜。

尤其感到高興的是,不僅是國內電動車車廠對智能化的東西有更好的訴求,我們在歐洲的車廠也對大模型產品產生了很高的興趣。接下來,我們會圍繞大模型本身研發節奏和持續迭代,帶到行業內,這是全球汽車智能化實踐的機遇。

這是諸多座艙功能的展示,大家可以看一下,圍繞兒童場景,這個場景很早以前就在做,提到更多的是場景引擎。兒童在座艙內是什麼樣的場景,我們能爲兒童做什麼,在座艙內能爲兒童提供什麼樣的增值服務。這個裡面會產生一系列的價值,比如教育、娛樂、交流,這樣的話大大釋放駕駛員的依賴,也能對兒童產生很好的幫助和陪伴。包括AI說明書,用更好更簡單的交互方式來幫助我們對汽車的使用、汽車的維修、汽車的診斷產生很好的聯動,這些項目我們都在定點推進中。

我們認爲大模型在座艙內的應用演化趨勢主要有三個階段。過去十幾年由於芯片的技術、物聯網的技術,包括大數據技術的迭代,尤其是手機、安卓生態大量的應用,我們看到了第一階段APP快速導入的機會,現在的車廠除了大屏,有大量App都可以用,這就是手機生態很好的延續,也幫助我們座艙產生了很好的第一階段應用。接下來很多車廠都在做的,包括接下來也把它做深的就是場景自動觸發。我們基於感知,基於座艙內的環境,基於座艙內人員數量,甚至包括如是否有寵物等這些做出判斷,我們應該爲這個場景定製、觸發怎樣樣的功能和服務。這些東西做到極致之後,接下來我們要看到最重要的極限就是大模型無處不在,它變成完全的智能管家,或者車載機器人,自動駕駛讓車變成一個老司機;本身在座艙這個領域,變成一個貼心的管家,理解你,懂你,能夠幫助你在座艙這個“封閉”環境內,更好去得到你想要的服務。

從高級別自動駕駛的逐漸落地,智能座艙大模型引領的AGI時代的來臨,可以看到接下來座艙內更多是從第三移動空間往智能機器人去轉型。這裡幾個核心的關鍵詞:全方位的需求理解,這個非常重要。在之前我們看到很多交互差不多都是人去觸動,我們這個年齡段很多人開車全是機械式按鍵,必須按了這個鍵纔能有響應。接下來隨着語音進步,我們做人機交互更輕鬆。接下來有更多手勢控制,也更輕鬆。多模態技術會幫助這些需求得到進一步昇華和理解。這樣的話,圍繞座艙大腦,它會真正知道想你所想,然後引發出更多個性化服務,產生出擬人化的交付。這個中間我們對於未來場景需求會產生出哪些場景呢,汽車設計之初目標是安全的從A移動到B,它是一個交通工具。隨着智能化的發展,我們現在更多看到它已經向第三移動空間,向智能機器人轉型過程中,我們需要在座艙內去學習,去娛樂,要考慮它的安全屬性,考慮它的交互,考慮和物聯網的聯動做萬物互聯,甚至關注車內成員的健康等,所有東西全部打通在一起,我們認爲接下來機器將會和車完全融爲一體,座艙會產生一個新的使用場景,變成一個真正的智能管家。

這是我們對於AGI時代來臨大模型技術研發的發展趨勢,以及座艙接下來面臨的一些升級機遇的探討,也和大家做了一些分享。