蘋果爲什麼要給亞馬遜的AI訓練芯片站臺?

在12月2日至6日舉行的2024 re:Invent全球大會上,亞馬遜雲科技宣佈,其基於Trainium2的Amazon Elastic Compute Cloud(Amazon EC2)Trn2實例正式可用,並推出了Trn2 UltraServer,稱可讓客戶以優越的性價比訓練和部署最新的人工智能模型,以及未來的大語言模型(LLM)和基礎模型(FM)。同時,亞馬遜雲科技還發布了新一代Amazon Trainium3芯片。

值得注意的是,蘋果機器學習和人工智能高級總監Benoit Dupin現身大會,並在臺上講解了蘋果如何使用雲服務。Dupin表示,十多年來,蘋果一直在使用AWS提供Siri、Apple Maps和Apple Music等服務。其還強調使用亞馬遜的Inferencia和Graviton芯片爲搜索提供服務,使效率提高了40%。

據Dupin透露,蘋果目前正在評估亞馬遜雲科技的最新AI訓練芯片Trainium2,預計使用該芯片進行預訓練時效率將提高50%。

不過,蘋果使用Trainium2僅限於AI模型的預訓練階段,不會用於Apple Intelligence功能。Apple Intelligence功能由蘋果設備上的芯片或蘋果私有云計算平臺上的Apple Silicon 芯片提供支持。

界面新聞了解到,蘋果願意考慮Trainium2進行預訓練,成本是一個重要因素。目前,市場上大部分公司的AI模型預訓練都在使用英偉達的GPU芯片,但這種訓練方式成本較高,各個公司都在尋求成本更低的替代方案,雲計算廠商也看中了這一市場需求。

亞馬遜雲科技計算和網絡副總裁David Brown在演講中表示,Trainium2是專爲支持大型、前沿的生成式AI工作負載而設計的,能夠滿足訓練和推理的需求,並且更具備性價比。

具體來說,與當前基於GPU的EC2 P5e和P5en實例相比,最新可用的Amazon EC2 Trn2實例的性價比提升30%-40%。其配備16個Trainium2芯片,可提供高達20.8 Petaflops浮點算力的性能,非常適合訓練和部署具有數十億參數的大型語言模型(LLMs)。

全新推出的Amazon EC2 Trn2 UltraServers服務器機型配備64個相互連接的Trainium2芯片,採用NeuronLink超速互連技術,可提供高達83.2 Petaflops浮點算力,其計算、內存和網絡能力是單一實例的四倍,能夠支持訓練和部署超大規模的模型。

目前,亞馬遜雲科技正在聯合Anthropic打造名爲Project Rainier的EC2 UltraCluster,其包含數十萬顆Trainium2芯片,所達到的算力比其當前一代AI模型訓練所需算力高出5倍以上。

亞馬遜雲科技推出的新一代AI芯片Trainium3,是首款採用3納米工藝製造的芯片,在性能、能效和密度上都達到了新的高度。搭載Trainium3的UltraServers性能預計將是Trn2 UltraServers的4倍,這意味着其能夠幫助客戶更快速地構建更大規模的模型,並在部署時提供更優的實時性能。

有聲音認爲,亞馬遜雲科技推出Trainium系列將對英偉達GPU芯片形成挑戰,有望爭得更多市場份額。但一位雲計算行業從業者表示,兩者的差異非常明顯,Trainium系列芯片則更側重於對亞馬遜自身業務和客戶需求的優化,亞馬遜並不會對外出售該芯片,而英偉達GPU芯片在科學計算、高性能計算等領域的應用更加廣泛,其芯片架構和軟件生態在這些領域的優化更爲成熟。

隨着AI的大規模應用和對算力需求的進一步增長,越來越多的企業對芯片、服務器、工具、架構、服務等提出新的定製化要求,雲計算廠商通過自研芯片來訓練和部署更大規模的模型、降低訓練成本已是大勢所趨。

除了亞馬遜雲科技之外,微軟Azure和谷歌雲也在積極探索自研芯片,這也將進一步豐富芯片市場,以減少對英偉達芯片的過度依賴。