油車時代的三大件是長津湖,智駕時代的芯片就是上甘嶺
世上無難事,只要肯登攀,很多人喜歡登山,追求的是登頂和翻越高山之後的成就感。
自芯片荒以來,本土車企這幾年時間也愛上了登山,他們登的那座山叫芯片。
在東邪西毒裡,藉着歐陽鋒的口,王家衛說,年輕的時候看着大山,就想知道山後面是什麼,年紀大了,就不想知道了。
芯片是中國的老大難,也是一座很難翻越的關山,在這座大山的背後,是一個又一個異構計算單元。
我們以黑芝麻(參數丨圖片)A1000的異構計算架構圖爲例,展開介紹一下以智能駕駛和智能座艙爲主要應用場景的汽車大算力芯片內部的各類異構計算單元。
這類大算力芯片一般會包含CPU、GPU、NPU、DSP、ISP、安全MCU、視頻輸入輸出、計算機視覺引擎、各類通信接口。
CPU可以針對不同應用的實時性和安全要求選擇運行不同的操作系統,管理內存、存儲、文件系統、系統外設等各類資源,進行邏輯計算,提供安全支持。
GPU主打圖像處理,負責管理多個高分辨率顯示器的圖形渲染和紋理處理,支持優先處理儀表屏之類的實時應用。
DSP進行濾波、降噪等數字信號處理,既可以提供定點計算能力,也可以進行復雜的浮點計算;ISP既可以用於圖像的感知,也可以用於圖像的合成。
NPU是大家目前最看重的神經網絡處理器,有時也被稱爲BPU或AI引擎,主要用於神經網絡的推理工作。
當然了,鑑於AI已經發展了六七十年,CPU和GPU也具備一定的AI能力,CPU可以進行輕量級單次推理的低延遲AI任務,GPU的並行特性和大吞吐量使其可用於處理媒體、3D和渲染中的AI任務。
芯片設計的主要工作是對各種各樣的計算單元進行靈活的組合,選擇合理且有效的算力類型和算力規格,滿足應用場景的多樣性需求,並達到算力、功耗、成本的最佳平衡。
不過,在目前這個時代,大算力芯片設計最主要的任務是聚焦最新的神經網絡架構,使其NPU或AI引擎的設計可以做到與現代神經網絡協同優化。
早起的鳥兒有蟲吃,早起的蟲子被鳥吃。
有的領域存在先發優勢,有的行業存在後發優勢。對於算法不斷變化的智駕來說,自動駕駛芯片做得越晚,就越是能夠適應技術路線的不斷演變。
在2021年的GTC大會上,英偉達推出了Orin X的下一代芯片Atlan,到了2022年的GTC大會上,豪橫的黃教主砍掉了已經花了好幾億美金的Atlan,直接推出了新的芯片-雷神Thor。
這次改變的核心原因並不在於Atlan的芯片算力有點低,要知道,雖然Atlan的芯片算力爲1000T,Thor的芯片算力曾經一度提高到2000T。
但是,到了2024年的GTC大會上,出於一些不可言說、難以琢磨的原因,這顆芯片的算力又被閹割成了1000T。
事實上,跟Atlan相比,Thor最核心的轉變在於加入了Transformer引擎。
之所以幾億美金說打水漂就打水漂了,黃教主連眼睛都不眨一下,是因爲在2021年的AI Day上,特斯拉推出基於Transformer的BEV,一下子打開了整個自動駕駛行業的視野:CNN的時代結束了,Transformer的時代到來了。
華爲曾經在2022年推算過,到2027年,自動駕駛系統中的CNN和Transformer的計算比例將從2022的七三開進化成屆時的三七開。
爲了支持佔據更大比例的Transformer計算,芯片層面必須引入原生的Transformer引擎,做好底層支持,才能保證上層自動駕駛算法的精度、時延。
這個幾億美金的教訓揭示了一個深刻的道理,要做出一顆成功的自動駕駛芯片,必須非常瞭解自動駕駛算法。
在NOA市場屈居英偉達之下、在一體機市場獨佔鰲頭的地平線將自己標榜爲披着芯片廠商外衣的算法廠商的核心原因就在這裡。
自動駕駛系統內部有成千上萬個小模型,這些模型會用到哪些具體的算法,需要芯片在硬件層面提供什麼樣的支持,特別考驗自動駕駛芯片廠商在算法上的實力。
男女搭配,幹活不累,軟硬協同,才能得到力大磚飛的系統。
對智能系統而言,芯片只是基礎,如何與軟件深度協同並將協同效應最大化纔是制勝的關鍵。
廠商若不提供可以釋放硬件性能的底層軟件,對開發者而言,芯片就是一塊板磚。
接下來,先擺事實再講道理,談一談爲何芯片廠商需要實現軟硬協同。
擺事實,自2016年起,特斯拉採用英偉達的Drive PX 2開啓了自動駕駛的自研之路,版本號爲HW 2.0,物理算力是24TOPS,後來升級爲HW 2.5,物理算力提高到80TOPS。
2019年,特斯拉推出第一顆自研的自動駕駛芯片,算力爲72TOPS。
算力下降了,但在以FPS爲度量指標的真實性能上,HW3.0相較於HW2.5提升了足足21倍!
這個比較不只說明了特斯拉的超級強悍,還告訴了我們一個鐵一般的事實:只有深諳自家芯片的硬件特性和技術秘密,纔有可能設計合適的算法壓榨硬件算力,將軟件性能發揮到極致。
再講道理,系統的性能=計算算力x計算帶寬x計算算法。
這裡的計算算力是硬件處理器可以釋放的峰值計算效能,大家津津樂道的芯片算力多少個TOPS指的就是這個指標。計算帶寬指的是對峰值計算能力的有效利用率,取決於芯片架構、編譯器的優化程度。
計算算法指的是算法效率,可以理解爲軟件在硬件上的駐留時間或者資源佔用情況,停留時間越長,對硬件潛力或者說性能的挖掘就越大,這個指標取決於芯片廠商提供的算子的效率和上層算法開發商的算法實力。
看到了吧,芯片從來不只是芯片,而是芯片+底軟的整體解決方案,如果做芯片只是拿着各種IP核搭積木那麼簡單,國家何至於每年要進口四五千億美金的芯片?
做芯片到底有多難,三天三夜也講不完,隔壁的手機廠商最瞭解這一點。
君不見,已經過去了10年的時間,小米至今還沒有拿出第1顆真正自研的手機芯片?