博通的「英偉達時刻」,靠X+ASIC成就

當GPT-4被問到在GPU(圖形處理單元)上和在ASIC(專用集成電路)上運行,哪個會更高效時,它答道:「如果我使用專門爲AI任務設計的ASIC,我可能會實現更快的性能和更高的效率。」

在訓練大模型數據出現可預見枯竭的當下,ASIC逐漸進入人們視野,注重研發ASIC芯片的博通(Broadcom)乘風而起。上週五晚,美股市場出現買博通、賣英偉達(NVIDIA)的場景——博通股價大漲超24%,創下歷史最高當日漲幅記錄,成爲繼英偉達和臺積電後,第三家市值突破一萬億美元的半導體公司。

據雷峰網瞭解,目前博通的市盈率(P/E Ratio)已高於英偉達:按12月17日收盤價,博通的市盈率爲184.79,而英偉達的市盈率爲51.54。這似乎也表明,投資者們更看好博通的未來。

與注重研發通用芯片GPU的英偉達不同,博通更專注於ASIC定製化芯片。這類能耗較低、專爲特定任務設計的芯片,對企業的研發技術水平要求很高、製作流程也耗時較長。也因此,有行業人士指出「這些芯片並不適合所有人」。不過,在AI大模型推理被提上日程的今天,GPU的性價比也逐漸被打上問號。或許,博通和英偉達的未來發展,不僅是兩家科技公司的商業策略相較,也是GPU和ASIC兩種芯片應用場景的一較高下。

圖源:greenmossinv

博通的崛起:天時地利人和

今年12月,博通發佈的最新一期第四財季財報顯示,其全年AI相關業務收入同比實現增長220%。

博通CEO Hock Tan指,這得益於公司旗下AI XPU類芯片和以太網產品組合的需求支撐。他續透露,目前博通已有三家超大規模客戶制定自己的多代AI XPU路線圖,預計到2027年,每個客戶在單一網絡架構中將部署100萬個XPU集羣;同時,博通還在爲兩家新的超大規模客戶設計開發相應下一代AI XPU產品,預計將在2025年下半年實現對3nm XPU的大規模出貨。

根據業界分析,博通ASIC芯片的大客戶主要包括谷歌、Meta。也有傳言稱,字節跳動和Open AI已與博通合作開發芯片。近日也有消息透露,蘋果似乎正與博通合作計劃開發AI服務器芯片。

據瞭解,博通爲這些知名科技公司開發用於AI、通用數據處理等用途的芯片,一般是與其客戶確定工作的負載需求後,跟合作伙伴確定芯片的規格,利用博通在硅片設計方面的專業知識,開發其主要存在差異化因素的關鍵方面,如處理單元架構。之後,博通在硅片中實現該架構,並配備平臺特定的IP、緩存、芯片間互聯接口。

博通的AI計算ASIC還利用共封裝光學器件來提高能源效率和可擴展性,減少系統延遲,滿足更復雜的計算要求。與傳統的光學器件相比,其功耗可節省高達30%。

在今年12月初,博通宣佈推出其3.5D eXtreme Dimension系統級封裝 (XDSiP™) 平臺技術,使消費級AI客戶能夠開發下一代定製加速器 (XPU)和計算ASIC。3.5D XDSiP在一個封裝設備中集成了超過6000平方毫米的硅片,和多達12個高帶寬內存 (HBM) 堆棧,可實現大規模AI的高效、低功耗計算。博通推出的這款業界首個Face-to-Face (F2F) 3.5D XPU,是一個重要的里程碑。

訓練生成式AI模型所需的巨大算力依賴於10萬個到100萬個XPU的大規模集羣。這些XPU需要越來越複雜的計算、內存和I/O功能集成,同時最大限度地降低功耗和成本。在過去十年中,2.5D集成——涉及在中介層上集成多個芯片(面積高達250mm²)和HBM模塊(高達 8 HBM)——已被證明對XPU的開發很有價值。然而,隨着漸趨複雜的LLM(大型語言模型)推出,它們的訓練需要3D硅堆疊,以達到更好的尺寸、功率和成本。因此,將3D硅堆疊與2.5D封裝相結合的3.5D集成,有望成爲未來十年下一代XPU的首選技術。

與F2B(正面對背面)相比,博通的3.5D XDSiP平臺在互連密度和功率效率方面取得了顯著的改進,其堆疊芯片之間的信號密度提高了7倍。並且,通過使用3D HCB而非平面芯片到芯片PHY,可將芯片到芯片接口的功耗降低10倍。在此基礎上,這一技術還可最大限度地減少3D堆棧內計算、內存和I/O組件之間的延遲;並實現更小的中介層和封裝尺寸,節省成本並改善封裝翹曲。

成立於1991年的老博通,最初是一家專注於寬帶通信解決方案的小型半導體公司,產品範圍涵蓋有線和無線通信、企業存儲和數據中心解決方案。該公司在2016年被Avago Technologies收購後採用博通(Broadcom)這個名字。如今,博通爲當下最關鍵的技術提供支持,包括5G網絡、人工智能和物聯網 (IoT)。

博通在人工智能市場的成功很大程度上歸功於其定製硅片解決方案和高速網絡產品。它已成爲主要科技巨頭的人工智能芯片的主要供應商,其XPU技術在超大規模客戶中越來越受歡迎。博通還指出,芯片市場正從以CPU爲中心轉向以連接爲中心,而後者正是博通的專長。Piper Sandler分析師Harsh Kumar也看好博通:「我們繼續認爲博通是最好的AI公司(不包括英偉達),因爲它在定製ASIC業務中佔據強勢地位,並且擁有強大的軟件產品組合」。

在AI革命熱潮下,博通的多管齊下戰略,包括投入資金進行收購、提供定製芯片和擴展到軟件業務,使其成爲強大的競爭對手。

與此同時,隨着AI大模型訓練數據漸趨枯竭,AI領域的任務從訓練端逐步轉向推理端。有行業人士指,這一轉型或意味着人們對芯片的計算精度要求相對可能降低,但對計算速度、能效成本等要求提高,而能以較低功耗實現快速推理計算的ASIC正好滿足這一需求。對此,博通CEO Hock Tan預測:未來50%的AI算力都會是ASIC提供。他更放言:2027年市場對定製AI芯片ASIC的需求規模將達600億至900億美元。

博通在AI領域的大膽舉措,爲AI芯片市場的史詩級對決埋下伏筆。

X+ASIC vs 英偉達軟硬件 「護城河」被攻破了嗎

在英偉達佔據AI芯片主要市場份額的情況下,大型科技公司都希望能減少對其依賴,博通也將自己定爲替代方案。在此之下蓬勃生長的博通,甚至讓英偉達CEO黃仁勳感到威脅。他承認:「博通(和其他初創公司)的復甦讓英偉達的規劃者感到緊張。」

與長期主導行業的英偉達GPU不同,博通在市場上的差異化在於它正在爲全球頂級科技公司製造非常昂貴的定製AI芯片,承諾幫助他們將速度提高20%至30%,並將功耗降低25%。ASIC爲擁有大量穩定AI工作負載的科技巨頭,提供巨大的商機,可以幫助企業在資本支出和功耗方面節省大量成本,這使其成爲更具成本效益的選擇。

不過,這些芯片對企業的研發技術水平要求較高,且需要大量初始資本投資,製作流程也較長。據悉,做一款ASIC芯片,需經過代碼設計、綜合、後端等複雜的設計流程,再經幾個月生產加工以及封裝測試,才能拿到芯片來搭建系統。有分析師指出:「你必須是谷歌、Meta、微軟或甲骨文這樣的公司才能使用這些芯片,這些芯片並不適合所有人。」

因此,英偉達在市場的領導地位尚未被削弱。

英偉達豎起的堅固壁壘,靠的不僅是其通用芯片,還有平臺衍生出的龐大軟件生態。英偉達公認的強大「護城河」CUDA,作爲一種專門用於加速GPU運算的專利軟件技術,能讓工程師省下大量撰寫低階語法的時間,直接使用諸如C++或Java等高階語法,來編寫應用於通用GPU上的演算法,解決平行運算中複雜的問題。這一軟件配以英偉達的GPU和網絡傳輸NVLINK——後者是一種高速、低延遲的互聯技術——三張王牌合力,強大的軟硬件協同完善的生態,鞏固其廣泛的客戶羣體。

但業界對CUDA的過於依賴,已讓不少主打AI的公司開始警惕。而做網絡出身的博通,強大的技術積累能爲客戶提供高性能網絡傳輸;同時,客戶在配備博通AI芯片的前提下,可以繼續使用自己公司的算法、系統和模型,無需考慮芯片是否適應英偉達的CUDA——這讓它逐漸成爲一個有力的選項。

在歷史上,英偉達曾面對諸多強大的對手,如Google、微軟、META等巨頭均有涉及製造GPU,但因爲產能、CUDA等限制,這些公司都無法與英偉達競爭;但現在在ASIC芯片這一賽道上,由於場景在上述巨頭手上,從而繞開了對英偉達生態體系的依賴。

換言之,博通與英偉達之前的對手如AMD、Intel不同,後者更多是在技術上與英偉達展開競爭,但博通則是通過與其他對AI算力有需求的商業巨頭的合作,當Google、Amazon等自己設計芯片後,交由博通完成後續的製造,在商業模式上撼動英偉達的領導者地位。

這種 X+ASIC vs 英偉達的模式,也正是讓英偉達感到緊張的原因。

在半導體芯片的歷史上,類似的模式最成功的案例是ARM,不同的是,ARM採取的是IP授權模式,它不向市場出售成品芯片,而是靠將其研發的指令集架構和處理器IP而獲利。憑藉這一模式,ARM在移動互聯網時代戰勝了強大的Intel,拿下了今天移動終端的大市場。

不可否認的是,ASIC是專門爲特定應用開發的,靈活性較差,且開發成本高昂耗時;而GPU是可編程的,靈活性高,可用於各種任務,可快速實施,擁有成熟的軟件和硬件基礎設施,包括廣泛使用的編程語言和庫。即使在可擴展性方面,GPU迄今爲止也得分頗高。英偉達目前是最受歡迎的AI芯片製造商之一不足爲奇。

但是,這樣的局面還能持續多久?

達到的極限GPU 能否交給ASIC接力

目前,主流AI芯片主要包含以GPU爲代表的通用芯片、ASIC定製化爲代表的專用芯片及FPGA爲代表的半定製化芯片。當談論大語言模型及訓練集羣或一般的人工智能時,GPU仍是默認選擇——專爲圖形處理而生的GPU,並行處理能力出色,符合AI計算場景的需求,如處理大量數據集和加快模型訓練時間等。英偉達的GPU仍被用於爲最強大AI模型的訓練和運行提供動力。

然而,儘管在訓練場景中效率很高,GPU在擴展AI應用以進行廣泛使用方面,卻仍面臨着重大的缺點。在成本和能源上,它是一種昂貴的選擇。雷峰網瞭解到,GPU設計側重於64位元素來處理廣泛的計算任務,但在實時AI工作負載中,放棄64位組件可以將芯片尺寸和能源需求減少多達三分之一,同時仍能滿足大多數AI處理需求。

隨着AI走向推理,特別是處於必須在靠近源頭的地方處理數據的邊緣環境時,與GPU相關的高成本和功耗將變得越來越難以承受。GPU或已達到極限。

相反,專用於AI的ASIC現在爲特定推理任務提供了更具成本效益和更強大的替代方案。進行推理更強調的是適合邊緣部署的可擴展、節能的硬件解決方案——邊緣AI設備在現場處理數據,而非將其傳輸到中央數據中心,因此,它們會受益於輕量級、專用的芯片。

除了博通,另一家相對年輕的ASIC製造商Etched研發出了世界上第一款Transformer ASIC 「Sohu」。他們對未來的信心不僅在產品上,還在ASIC的發展勢頭上——

過去幾年內,AI模型已變得如此智能,甚至比人類更好地執行標準化測試,這得益於它們獲得越來越多的計算能力。然而,數據中心的擴展並非無限,Etched指出:「再擴大1000倍將是昂貴的,下一代數據中心的成本將超過一個小國的GDP。按照目前的速度,我們的硬件、電網和錢包都跟不上」

「如果模型的訓練成本超過10億美元,推理成本超過100億美元,那麼專用芯片是不可避免的。在這種規模下,1%的改進就足以證明一個價值5000萬至1億美元的專用芯片項目是合理的」,Etched說道。

此外,在另一個領域——挖礦,ASIC和GPU也各有所長。ASIC作爲定製專用芯片,在可靠性、保密性、算力、能效上,都比通用芯片更強,相較於GPU和CPU,在挖礦時效率也會更高。據統計,ASIC計算哈希(Hashes)的速度比GPU和CPU快10萬倍,一臺ASIC礦機可以提供約3000美元的高端哈希算力。

不過,由於ASIC是爲開採特定貨幣而製造的專用集成電路,因此在應對加密貨幣挖礦業務或挖礦難度的變化方面,則缺乏靈活性。雖然ASIC礦機效率高、盈利能力強,但零售礦工和剛進入挖礦行業的個人,或會對ASIC礦機的高昂起始成本望而卻步。

相較而言,GPU由於其多功能性,能挖掘各種加密貨幣,礦工可以在不同的加密貨幣之間切換,以應對網絡難度和挖礦操作的變化。但GPU能耗高,經濟性較差,且需要大量顯卡和輔助冷卻設備,GPU設備也需要更大的空間,這對於空間有限的礦工可能會成爲問題。

不可否認的是,GPU將繼續在人工智能訓練中發揮關鍵作用,但由於其成本和能源效率限制,行業向ASIC的轉變也已出現。未來GPU是否依然能佔據大量的市場份額?ASIC漫長的開發週期和初始成本,又能否滿足日新月異的AI時代下用戶的需求?在對AI大模型的發展由訓練轉向推理的當下,一切懸而未決。

參考資料:

https://www.cnbc.com/2024/12/14/broadcoms-long-path-to-the-trillion-dollar-club-and-trumps-role.html

https://www.investing.com/news/swot-analysis/broadcoms-swot-analysis-ai-chip-leaders-stock-poised-for-growth-93CH-3775161

https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-gpu-clusters-with-one-million-gpus-are-planned-for-2027-broadcom-says-three-ai-supercomputers-are-in-the-works

https://finance.yahoo.com/news/nvidia-broadcom-top-analyst-picks-141957599.html

https://www.artificialintelligence-news.com/news/broadcom-ai-surge-challenges-nvidia-dominance/

https://theafricalogistics.com/money/broadcoms-journey-to-the-1-trillion-club-a-semiconductor-success-story/

https://www.bitdeer.com/learn/asic-vs-gpu-what-are-the-main-differences-to-consider

https://www.all-about-industries.com/asics-versus-gpus-does-the-ai-future-not-lie-in-nvidias-hands-a-616108ac6928e3d542c757192c7c26e7/

https://awavesemi.com/is-a-gpu-asic-or-chiplet-based-soc-better-for-ai-as-we-switch-from-training-to-inference/