萬千氣象看上海 | AI大模型與汽車產業融合,人機交互將迎來質變 | 尋找中國經濟新動能

4月25日-5月4日,2024(第十八屆)北京國際汽車展覽會在中國國際展覽中心舉行。商湯絕影在展會上首次向公衆展出了面向量產的真·端到端自動駕駛解決方案UniAD(Unified Autonomous Driving)的道路測試表現,同時還帶來了以多模態場景大腦爲核心的AI大模型座艙產品矩陣以及全新座艙3D交互演示。

2022年底,商湯及其聯合實驗室提出了行業首個感知決策一體化自動駕駛通用模型UniAD,並在次年榮獲2023年國際計算機視覺與模式識別會議(CVPR)最佳論文。

今年年初,特斯拉開始向部分用戶推送FSD V12版本的端到端自動駕駛方案,業內隨之出現了越來越多的“端到端”智駕方案。與大部分端到端方案採用由感知和決策兩個模型組成的“兩段式”架構不同,UniAD將感知、決策、規劃等模塊都整合到一個全棧Transformer端到端模型,實現了感知決策一體化。

搭載UniAD端到端自動駕駛解決方案的車輛不需要高精地圖,僅憑攝像頭的視覺感知就可以像人一樣觀察並理解外部環境,然後基於感知信息,UniAD能夠自己思考並自主解決各種高難度的城市複雜駕駛場景。

在北京車展的上車演示中,商湯絕影展示了在複雜場景下UniAD的處理能力:在上海臨港無標線鄉村窄路上,對向有車駛來,前方有行人在跑步,UniAD判斷出前方有足夠的空間進行操作,所以在確保安全的情況下,選擇快速向左繞過行人然後回到正常行駛路線完成會車。

商湯絕影是商湯集團旗下聚焦智能汽車業務的子公司,落戶在上海臨港。公司通過構建駕-艙-雲三位一體的通用人工智能(AGI)技術架構,將人工智能技術與汽車產業進行融合。

目前,上海臨港新片區作爲絕影自動駕駛研發的基地之一,向其提供了包括車路協同等方面的開放場景,幫助絕影推進產品的迭代和技術的演進。

今年的《政府工作報告》將“大力推進現代化產業體系建設,加快發展新質生產力”放在2024年政府工作任務的首位,提出要充分發揮創新的主導作用,同時強調“鞏固擴大智能網聯新能源汽車等產業領先優勢”與“深化大數據、人工智能等研發應用,開展‘人工智能+’行動”。

商湯科技聯合創始人、首席科學家、絕影智能汽車事業羣總裁王曉剛認爲,AI大模型將助推新質生產力的發展,推進AI的規模化產業應用,特別是AI大模型與汽車產業的碰撞與融合。

“大模型給人類社會也包括汽車行業帶來的變化主要體現在兩個方面:一個是生產效率的提升,另外一個是人機交互體驗的質變。”王曉剛在接受界面新聞專訪時提到。

例如在智能座艙裡,在開發例如駕駛員感知、乘員感知等各類AI功能的時候,包含識別打電話、疲勞分心等多個任務,以前每增加一個功能都需要投入大量的研發人員去開發。但隨着多模態大模型的出現,對於新任務的泛化能力大大提升,無論是提取基於座艙裡捕捉到的圖像視頻,或是問詢各種開放式的問題,一個模型就可以解決座艙裡出現的多個智能化任務。

在人機交互體驗上,隨着多模態大模型的出現,系統可以通過人的指令改變自動駕駛的行爲。比如在高速路上開車的時候,如果覺得旁邊臨車道的大卡車有壓迫感,駕駛員就可以通過語音指令讓汽車和大卡車保持距離。

在輸出上也不僅限於能輸出駕駛的軌跡、規控,大模型還能夠以文字和語言的形式,解釋模型駕駛過程中做出的各種行爲判斷。由此一來,自動駕駛系統就不再是一個黑盒子,將擁有更好的解釋性和人機交互的體驗。

“汽車某種意義上就像一個機器人,大模型能夠讓汽車變成一個更加通用的智能體,理解司機與乘客,提供更個性化的服務。”王曉剛說。

通用人工智能和大模型的進化離不開基礎設施的建設。隨着包括算力、數據規模的擴大,模型的能力才能夠持續突破技術邊界。

2018年,在上海市政府的支持下,商湯在臨港建立AIDC智算中心,目前還在進一步擴大規模。截至目前,商湯已經有45000塊GPU,包括12000P的算力,爲大模型的研發提供強大的支持。

除了推動集團內部的研發,王曉剛表示商湯將來也會將這些大裝置基礎設施開放給主機廠及其他生態的合作伙伴,以共同推動通用人工智能、大模型的發展。

僅僅是硬件計算設備的堆砌,並不能將幾千塊甚至上萬塊的GPU進行有效連接。王曉剛向記者解釋,如果單純將這些硬件設備連接起來,會發現它只能提升訓練效率30%,因爲不同的卡和機器之間要進行大量通信、數據的傳輸還有同步,這些都會大大降低使用效率。並且一萬塊卡里如果其中有一塊卡出現故障,那麼整個系統也會頻繁死機。

因此,商湯開發了一整套軟硬件系統,將整體效率從30%提升到90%,並讓整個機器系統可以長時間穩定地運行,以順利開展大模型研發工作。

在數據方面,除了自身的數據積累,絕影也和主機廠展開了合作。針對車廠自身的海量數據,絕影可以提供大模型訓練的工具、基礎設施,讓車廠對模型進行迭代。

目前,商湯絕影已經服務了30多家主機廠,有大量的量產車型落地。王曉剛透露,在去年絕影交付了40多個車型,今年交付車型的數量可能會翻一倍。

除了智能駕駛,商湯日日新的大模型系列已被應用在智能座艙中。小米SU7就使用了商湯的大語言模型和多模態模型,以提升車輛的智能化體驗。目前還有十幾家車廠也在這方面和商湯有所合作,一系列的POC(概念驗證)和量產項目正在落地。

關於絕影的下一步計劃,王曉剛向界面新聞表示,在汽車智能化領域,一方面,絕影會繼續推動端到端自動駕駛技術的發展;另一方面也在積極地把多模態大模型應用到自動駕駛領域,希望能做到在不用手動操作的情況下,通過語言交互就能改變自動駕駛的行爲。

在車艙裡,絕影也會進一步開發基於大模型智能座艙的整體方案,完善座艙大腦。各種視覺、語音、自然語言等等也會被融入到一個多模態大模型中去完成各種功能。

另外,現在自動駕駛和智能座艙還是需要運行在不同的芯片和域控制器上,但隨着技術的不斷成熟,將來會完成艙駕的融合。這樣車內和車外各種傳感器的數據也能夠更好的打通,帶來更快的數據傳輸和更好的用戶體驗。由於絕影同時擁有智能駕駛和智能座艙兩個業務方向和產品線,所以在推動艙駕融合方面會更有優勢。

在更遠的未來,王曉剛認爲,很多在智能汽車裡應用到的技術,也會被應用到機器人的領域裡。所以今天汽車的智能化也爲將來機器人的發展提供了基礎。