阿里雲飽和式投入 AI,不想在 “遲疑中錯過變革”

吳泳銘:生成式 AI 最大的想象力,不是一兩個手機上的超級 App。文丨賀乾明編輯丨程曼祺吳泳銘難得的公開亮相,給了阿里雲。去年 9 月,吳泳銘接任阿里巴巴集團 CEO,後直接管理兩大業務板塊:一是阿里賴以起家,目前仍爲最大主業的電商,吳泳銘是淘天集團董事長兼 CEO;另一個就是阿里雲,吳泳銘同時擔任阿里雲智能集團董事長兼 CEO。自那以後,吳泳銘甚少公開露面,去年的雙十一晚會他也沒有參加。在 9 月 19 日舉辦的 2024 雲棲大會上,吳泳銘在主題演講中說:“新技術應用早期,滲透率比較低,大部分人會產生懷疑,這很正常。但新技術革命會在人們的懷疑中成長,讓很多人在遲疑中錯過。”【來源:wuhan.129543.com】這概括瞭如今大模型領域的觀點分歧。由 ChatGPT 引發的大模型和生成式 AI 熱潮,因一系列進展不如預期——GPT-5 遲遲未發、Sora 未大規模開放等——在今年下半年轉冷。微軟、Google 等公司的財報會上,[圖文:wuhan.stamode.com]高管們頻繁被追問:到底如何平衡大模型的投入與收益?直到一週前,OpenAI 在 9 月 13 日發佈最新模型 o1 系列,展示投入更多算力、數據等資源,依然能換來模型性能提升,才一定程度上扭轉了市場風向。阿里雲對 AI 的投入有自己的邏輯,它將 AI 機會視爲算力基礎設施 + 模型 + 應用的整體,阿里雲定位於做好基礎設施,並通過開放更先進的模型,建設 AI 生態。吳泳銘昨日說,阿里雲會持續以前所未有的強度投入 AI 技術研發和基礎設施建設。阿里雲已看到了真實需求。吳泳銘說,當前新增算力需求中,超過 50% 由 AI 驅動,而且規模持續擴大。“過去一年,阿里雲投資新建大量 AI 算力,還是遠遠不能滿足客戶的旺盛需求。”阿里也看好生成式 AI 的長期前景。當前大多數投資大模型的公司把重心放在研發應用上,希望開發出下一個類似淘寶、微信或抖音的超級 App。而在吳泳銘看來,現在仍處於 AGI 變革的早期:“生成式 AI 最大的想象力,絕不是在手機上做一兩個新的超級 App,而是接管數字世界、改變物理世界。” 這意味着,幾乎所有行業都需要性能更強、規模更大、更適應 AI 需求的基礎設施。圍繞這些判斷,阿里雲宣佈了一系列新動作,除繼續全方位建設更有效率的 AI 大模型計算設施;還開源了性能逼近 GPT-4o 的大模型 Qwen 2.5,涵蓋能用到多種場景的 0.5B 到 72B 參數規模的多個版本;以及再次大幅降價——Qwen 系列主力模型降價 85%,百萬 tokens 價格低至 0.3 元。阿里雲 CTO 周靖人說,這些新動作會進一步刺激開發者和各行各業客戶使用大模型的需求。從底層硬件開始重構計算體系,持續建設 AI 基礎設施支撐大模型的基礎設施,與早些年的雲計算設施相比有明顯變化。廣爲人知的是算力芯片從以 CPU 爲主變成 GPU 爲主。這推動英偉達成爲全球最大的芯片公司,市值一度突破 3 萬億美元。底層硬件只是計算基礎設施轉變的一部分。“AI 技術變革,觸達計算體系的方方面面,是全棧、全系列的技術革命。” 周靖人在昨日的羣訪中說。生成式 AI 的模型規模大幅提升,動輒達到數百億、數千億,甚至萬億參數。這需要雲計算公司根據 GPU 特點和大規模並行計算的網絡特性建立新型計算體系,這包括:訓練和使用參數多的大模型時,只有幾塊 GPU 不夠,得把大量 GPU、服務器等算力節點組成一個龐大的算力網絡。這需要新的網絡架構。用算力網絡訓練、調度大模型時,還需要存儲、處理海量數據。這需要更大的內存帶寬和文件存儲系統。對開發者和企業用戶而言,希望更簡單地調用 AI 算力,屏蔽底層硬件複雜管理,自動匹配不同應用環境。這需要新的容器技術及系統服務。過去兩年,AWS、Google Cloud、微軟 Azure、阿里雲等雲計算平臺,都投入了大量資源建設新型計算基礎設施。據紅杉資本估算,今年科技行業投入規模會達到 6000 億美元。得益於大公司積極建設基礎設施,大模型也在迅速發展:大語言模型的參數從千億增長到萬億,融合語音、圖像、文本的多模態模型成爲熱門趨勢,生成圖像、視頻的模型不斷迭代,大模型也進入自動駕駛、機器人等領域,觸達物理世界。每一個變化,都需要計算基礎設施跟着優化。在雲棲大會上,周靖人介紹了一批阿里雲 AI 基礎設施的升級:磐久 AI 服務器可以支持單機 16 卡、顯存 1.5T,提供 AI 算法預測 GPU 故障,準確率到 92%;高性能網絡架構 HPN7.0 可支持 10 萬個 GPU 穩定互連,模型端到端訓練性能提升 10% 以上;CPFS 文件存儲的數據吞吐 20TB/s,爲 AI 智算提供指數級擴展存儲能力;人工智能平臺 PAI,可以實現萬卡級別的訓練推理一體化彈性調度,AI 算力有效利用率超 90%。阿里雲 CTO 周靖人介紹的阿里雲 AI 基礎設施。{出處:wuhan.gxqlled.com}“雲優化一點,大模型才能發展一點{出處:wuhan.dzqhkt.com},模型發展到一定程度又遇到挑戰,又需要雲去升級[圖文:wuhan.618zj.com]。” 周靖人去年曾說。“大家表面上看到的是一句 ‘AI 的基礎設施’,但中間有很多重要創新。正是這些重要創新,才讓大模型的訓練、大模型的創新變成了可能。”行業領先的大模型公司都離不開雲基礎供應商,比如 OpenAI 與微軟 Azure 綁定,Anthropic 拿了 AWS、Google 的投資,國內多個大模型公司都拿了阿里的投資。它們藉助雲計算公司的基礎設施訓練更強的大模型時,反過來也推動雲計算基礎設施迭代。今年 6 月,零一萬物 CEO 李開復說,阿里云爲零一萬物的大模型訓練提供了很多幫助,【來源:wuhan.westoe.net】還組成了專業小組來保證訓練的穩定性。大型科技公司的基礎設施投資競賽還會繼續。高盛今年 6 月發佈報告稱,科技巨頭和其他公司未來幾年還會投入上萬億美元,用於採購芯片和電力資源,建數據中心。以開源、降價激發需求,建立規模效應建好基礎設施只是雲計算公司業務的起點。雲計算是典型的規模越大、效益越好的生意,只有獲得大量客戶,雲計算公司才能收回早期建設基礎設施的投入、獲得利潤,建立競爭優勢。所以許多雲計算公司發展多年,{出處:wuhan.hyzsnt.com}還處於虧損狀態。在大模型時代,所有的雲廠商都處於建立規模效應的早期階段。紅杉資本合夥人大衛·卡恩(David Cahn)在一篇文章中寫道,就算慷慨地假設 Google、微軟、Meta 等公司每家一年能獲得 100 億美元新的 AI 收入,甲骨文、阿里巴巴、字節跳動、騰訊等公司每家獲得 50 億美元,從投入到收入的缺口還有 5000 億美元。補足缺口的關鍵是加速下游模型用量增長。在雲棲大會上,阿里雲展示了吸引客戶使用大模型基建的多個動作。首先是開發一批更強的大模型。周靖人昨天發佈阿里最新的旗艦模型 Qwen-Max,稱在多個數據集上的評測結果超過或接近 GPT-4o。同時,他們升級針對不同場景開發的大模型,比如數學領域的 Qwen-Math、編程領域的 Qwen-Coder、具備視覺理解能力的 Qwen-VL,以及生成圖片的通義萬相 Wanx,還新增視頻生成功能。[圖文:wuhan.51zbsm.com]阿里雲是中國大模型開源力度最大的大型科技公司,開源戰略仍在持續。據周靖人介紹,當前阿里雲開源的 Qwen 系列大模型,下載量突破 4000 萬,衍生出超過 5 萬款大模型,成爲僅次於美國 Llama 的模型羣。雲棲大會上,阿里雲開源最新的大模型 Qwen 2.5 系列,囊括 0.5B 到 72B 的不同參數版本。在周靖人看來,參數 3B 及以下的模型和能夠理解視覺的 Qwen-VL,將能夠擴大大模型的應用範圍,前者能讓大模型在終端硬件中運行,後者可以讓硬件具備理解物理世界的能力。過去兩年,阿里雲還在持續搭建開源模型社區魔搭,目前已經上架上萬款各類開源模型供開發者下載,開發者數量超過 690 萬。在這些大模型的基礎上,阿里雲用兩種方式把它們產品化,降低客戶使用門檻:一方面開發百鍊平臺,向企業客戶和開發者提供大模型服務。百鍊平臺中內置提示詞優化、檢索增強生成(RAG)、模型微調等一系列工具,讓那些對開發大模型應用有興趣、有需求的客戶,只在阿里雲就能調用多種模型開發和部署產品。“(客戶)不需要關注模型背後的 GPU 資源,不需要去關注如何去拉幾個模型。只需要一個簡簡單單的 API,就可以隨心所欲調用模型。” 周靖人說。阿里雲還開發了各種面向個人消費者的大模型應用,比如輔助編程的通義靈碼,輔助語音轉寫總結、閱讀長文檔、生成 PPT 等功能的多種 AI 助手。【來源:wuhan.ymzhi.com】阿里雲擴大需求的另一個舉措是持續降價。今年 5 月以來,中國的大模型公司開啓一輪價格戰。當時阿里雲把對標 GPT-4 的 Qwen-Long API 輸入價格降到 0.5 元 / 百萬 Tokens。現在阿里雲再次降價,幅度達到 85%,同時給新用戶贈送 5000 萬免費 tokens 和 4500 張圖片生成用量。“相對未來龐大的應用來說,今天的價格還是還太貴了。大量開發者無法有效、大規模使用。” 周靖人說[圖文:wuhan.zzkft.com],只有降低價格,才能推動 AI 應用爆發。這些阿里雲過去來兩年持續推進的措施,已經發揮部分作用。據阿里財報,過去幾個季度,阿里雲 AI 相關產品收入持續三位數增長,在其公有云收入中的佔比持續提升。在阿里 7 月的財報會上,吳泳銘說,藉助 AI 驅動,阿里雲的整體收入將在今年四季度恢復兩位數增長,此後會逐步加速。周靖人說,當前一共有 30 萬企業客戶接入了通義大模型。其中不僅有對大模型更熱情、大衆容易感知到的移動互聯網客戶,如微博、攜程、喜馬拉雅等;還有飲料公司三得利(中國),以及中國一汽、聯想、OPPO 等製造業公司。也有一些公司與阿里雲合作建設智算中心,訓練大型 AI 模型,如阿里雲透露,阿里雲與小鵬在烏蘭察布合作建設的數據中心,2022 年以來,規模已擴大了 4 倍。吳泳銘所說的 AI 接管數字世界,改變物理世界的趨勢已經有了跡象。面對大模型,投入不足的風險更大【來源:wuhan.mark86.com】今年是阿里雲成立的第十五年。它的起點是阿里巴巴替代成本不斷擴大的 IT 設施。當時在海外已經有一批科技公司開始建立公共雲計算平臺,但國內還沒有達成共識——不乏有互聯網、科技公司高管拋出 “雲計算是新瓶裝舊酒”“還需要很長時間才能普及” 或者 “私有的算力中心纔是重點” 的論斷。後來的故事是,阿里雲藉助早期大額投資,抓住 2015 年前後在中國興起的移動互聯網創業浪潮,成爲中國雲計算市場第一,並持續到現在。在吳泳銘看來,生成式 AI 創造的價值,可能是移動互聯網連接價值的十倍、幾十倍。他認爲,過去三十年,互聯網浪潮的本質是連接,互聯網連接人、信息、商業和工廠,通過連接提高世界的協作效率。生成式 AI 則讓世界有了統一的語言——Token。AI 模型可以把物理世界數據的 Token 化,理解真實世界的方方面面,從而模仿人類執行物理世界的任務,這將帶來新的產業革命。等到生成式 AI 應用爆發,作爲基礎設施供應商的雲計算公司顯然會從中獲得更多收入。而且對於阿里雲等中國的雲計算公司來說,生成式 AI 還能改變公共雲計算在中國市場的前景。此前多年,中國雲計算公司並不像 AWS 那樣,公共雲客戶遍佈各行各業,囊括美國證券交易所、大型石油公司、銀行業巨頭等。中國各個行業的大公司 “習慣於自己掌控” 基礎設施,讓雲服務商從採購服務器建機房開始做起,最後纔是軟件解決方案。它們服務的不同客戶之間的技術複用程度很低,難以降低邊際成本。現在這些客戶想要從頭建立生成式 AI 基礎設施、訓練大模型,需要投入更多資源。“全世界先進模型競爭的投入門檻,將達到數十億、數百億美金的級別。” 吳泳銘說。這意味着,在生成式 AI 時代,中國公共雲計算平臺的重要性會大幅提升。去年 11 月,吳泳銘接任阿里雲董事長兼 CEO 兩個月後,就在內部明確 “AI 驅動、公共雲優先” 的戰略。阿里雲持續建設大模型基礎設施的同時,飽和式投入大模型——模型層面,除了自研大模型、還開源大模型,{出處:wuhan.jxyjrh.com}投資一批大模型公司;產品層面,除了開發爲開發者、企業服務的百鍊平臺,還開發一批面向消費者的大模型助手。阿里雲的目標很明確:不在遲疑中錯過新一輪的技術革命。正如 Google CEO 桑達爾·皮查伊(Sundar Pichai)所說,面對大模型,“投資不足的風險,要遠遠大於過度投資的風險,哪怕事實證明我們是過度投資。”