智駕再不卷“端到端 ”就晚了?
“今天L4公司很多的技術路線還是算法+小AI模型的組合,都在痛苦的猶豫,是否應該轉入端到端。我個人的建議是:別猶豫,趕緊改,後面那個纔是大傢伙。”
7月11日,小鵬汽車董事長何小鵬今日在微博上分享了自己關於無人駕駛的看法,其中關於端到端的“個人建議”再次引發行業熱議。
據悉,小鵬早在2022年率先成立了國內最大的自動駕駛智算中心“扶搖”,擁有600PFLOPS的算力規模,專門用於訓練智能駕駛的算法模型。
自今年以來,“端到端”已經成爲了智駕領域最火熱的概念,涵蓋車企、人工智能企業、自動駕駛技術公司以及自動駕駛芯片製造商在內的多種類型參與者也都紛紛加碼佈局,如鴻蒙智行、元戎啓行、商湯絕影、小鵬汽車、零一汽車等等。
那麼究竟什麼是自動駕駛領域的“端到端”?離大規模落地還有多遠?
據業內人士介紹,當前主流的智能駕駛系統仍然採用模塊化模型,將任務分爲感知、定位、預測、決策和控制等獨立的模型,每個模型的技術棧差異較大,處於下游的規劃模型需要依賴工程師編寫大量代碼去制定行駛規則。簡而言之,傳統的模塊化架構就是像車間流水線一樣,經過多個加工步驟,最終輸出可執行駕駛指令。
但這種方式往往只能按照原有規劃處理各種數據信息,面對各種突發情況出現並不能做到“隨機應變”,就可能產生誤差,並且隨着模塊間信息傳遞進一步放大,甚至造成“失之毫釐差之千里”。此外,各個模塊進行數據處理和傳輸也可能因爲特殊情況的出現導致整體延時。在瞬息萬變的道路情況中,如果智駕系統不能第一時間做出準確判斷,後果將不堪設想。
而端到端系統給出了不一樣的“解題思路”,它並不再依賴於編程來處理特定駕駛場景,而是通過大量數據信息來不斷學習和觀察,能夠像人一樣做出駕駛決策。
端到端自動駕駛能夠用更少的工程處理更多的數據,將完全基於數據驅動進行全局任務優化。馬斯克甚至表示特斯拉採用端到端技術,能夠用3000行代碼,替代了原來的30萬多萬行C++代碼。
端到端不僅降低對高精地圖、激光雷達以及人工的依賴,還能降低中間環節的成本,也爲自動駕駛技術向L4級別無人駕駛的發展提供了更多可能。當前,“端到端將是未來最主流的自動駕駛技術路線”已經成爲了業內的共識。
儘管各家車企都叫端到端,但也分爲不同的層次,分爲顯式端到端(將多個神經網絡拼接形成端到端)、隱式端到端(不輸出中間結果,直接輸出控制信號)和基於大語言模型的端到端架構(將ChatGPT等模型與自動駕駛結合)。
在業內人士看來,即使車企都宣傳自己是端到端甚至是“首個量產”,但具體採取的是哪種水平的端到端很難被用戶感知,到底誰是“玩噱頭”誰是“黑科技”還需要經過實際檢驗。
衆多車企和自動駕駛公司也紛紛押注“端到端”模型。智駕頭部玩家特斯拉已於今年1月向北美用戶正式推送FSD V12,成爲首家在量產車型上實現端到端自動駕駛的公司。小鵬汽車則是國內首個發佈量產上車的端到端模型的整車企業,其端到端大模型由神經網絡XNet+規控大模型XPlanner+大語言模型XBrain三個部分組成。
不久前,理想也首次公開了其端到端自動駕駛技術架構,該架構主要由端到端模型、VLM視覺語言模型、世界模型三部分共同構成。商湯科技、毫末智行、元戎啓行等智能駕駛技術公司也都公佈了自己的端到端智能駕駛量產方案。
除了端到端架構,想要實現更爲先進的智能駕駛功能,還需要大家耳熟能詳的激光雷達、攝像頭、智駕芯片等配置,以及軟硬件協同提供相應的算力支持。如果說硬件基礎代表了智駕的“天賦”,那麼算力則代表了後天的“學習”,而數據量則代表了“題庫”。只有既有天賦,又肯提升學習效率且拼命刷題庫的智駕系統才能真正成爲能夠應對各種複雜道路場景“考試”的“學霸”。
而隨着各家車企卷向高階智駕,對於算力和數據的需求也持續攀升。特斯拉此前預測公司算力規模將於2024年10月達到10萬PFLOPS(是衡量超級計算機性能的指標之一,代表每秒一百億億次的浮點運算能力),相當於約30萬塊英偉達A100的算力總和。在今年4月,特斯拉宣佈其FSD累計行駛里程達到超10億英里。
據透露,FSD V12版本的訓練初期,在輸入超過100萬個視頻後,基於神經網絡的自動駕駛系統纔開始展現出良好的性能。在去年年初,特斯拉還上傳了約1000萬個人類駕駛視頻片段,而且是經過篩選的優質司機。
目前,特斯拉在全球各地近200萬輛的車隊,每天可收集約1600億幀視頻用於訓練,但這還遠遠不夠。特斯拉預測,未來用於訓練的視頻將達到數十億幀。
即使特斯拉FSD目前在北美表現不錯,但業內一直也有觀點認爲是因爲北美的路況較爲簡單,而中國的道路比美國複雜十倍。尤其是在中國各大城市的道路上,AI需要面對由車、泥土車、單車、行人、兩輪車等組成的複雜場景。這也是特斯拉FSD入華要面臨的難點之一。
此外,針對不同天氣情況的駕駛場景,也需要有特定的駕駛視頻進行訓練。例如霧、雪、雨、沙塵等能見度低的天氣以及像那些一天經歷四季的地區,這無疑對於駕駛訓練人員數量和優質訓練視頻數量提出了更高的要求。
而各家企業手裡有多少訓練算力資源也直接決定了智能駕駛模型的訓練效率與水平。目前,商湯已經擁有4.5萬張GPU,運營總算力規模達到12,000PFLOPS,預計算力在年底能達到2萬PFLOPS。華爲乾崑 ADS 3(參數丨圖片).0在算力方面已達到3500PFLOPS。在此前的發佈會上,小鵬汽車宣佈每年會在算力上投入7個億,今年會擁有超過7000張GPU,但並未透露具體的算力規模。
由於智能駕駛技術涉及到的核心資源衆多,包括但不限於計算機視覺、語音識別、自然語言處理等方面,因此國內車企和人工智能公司之間的競爭非常激烈。爲了爭奪更多的市場份額,雙方都在不斷地進行技術創新和產品升級,推動着智能駕駛技術的發展和進步。
雖然國內各家企業將2025年實現大規模端到端量產作爲發展目標,但在專家看來,端到端模型離大規模商業化應用還有一段較長距離,並且認爲當前自動駕駛正處於商業化應用的前期階段,預計2030年前後才能實現技術普及。此外,面對端到端模型尚未解決的黑盒問題和幻覺問題,還需要通過技術進步而逐步克服。
綜上所述,在自動駕駛有望迎來徹底爆發的前夜,國內車企和人工智能公司都已經進入智能駕駛核心資源的軍備賽階段。隨着自動駕駛行業馬太效應更加劇,只有那些具備核心優勢的玩家才能留在牌桌上。