☰

DeepSeek再爆火 AI競賽崛起中國創新勢力

DeepSeek再次爆火。

近日，國內AI初創公司DeepSeek發佈了新一代大語言模型DeepSeek-V3，同時宣佈開源。在多項基準測試中，V3的成績超越了主流開源模型，並和世界頂尖的閉源模型不分伯仲。

更重要的是，V3的訓練成本極低，僅爲GPT-4o的二十分之一；售價也低，輸入+輸出價格約爲GPT-4o的十分之一。不過其目前不支持多模態輸入輸出。

DeepSeek是量化資管公司幻方旗下企業，成立於2023年7月。

被冠以“AI界高效低價典範”的DeepSeek，給當前的人工智能技術與發展路徑提供了一個新的方向，貢獻了AI競賽中的中國力量。

V3不僅在人工智能界產生轟動效應，也因它的母公司是知名量化基金公司，而在資本市場引發熱烈討論。

另據報道，近期小米正在搭建GPU萬卡集羣，雷軍親自以千萬年薪挖來了DeepSeek-V2關鍵開發人員之一的95後羅福莉，後者被譽爲“AI天才少女”。

DeepSeek的“暴力美學”

多個實測表明，數學基準（MATH 500）和AIME 2024測試方面，V3超越了當前國際主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o；代碼能力（Codeforces 基準），比國外主流大模型高出約30分；軟件工程（SWE-bench Verified）和知識問答方面，略遜於Claude-3.5-Sonnet。

因此，DeepSeek的技術論文自豪地宣稱，“綜合評估表明，DeepSeek-V3-Base已經成爲目前可用的最強大的開源基礎模型，特別是在代碼和數學方面。它的聊天版本在其他開源模型上的表現也優於其他開源模型，並在一系列標準和開放式基準測試中實現了與GPT-4o和Claude-3.5-Sonnet等領先閉源模型的性能相當。”

更重要的是，這一成就，是在極低的訓練成本下取得的。

DeepSeek在其53頁的技術論文披露：“我們的預訓練階段在不到兩個月的時間內完成，成本爲2664K GPU小時。結合119K GPU小時的上下文長度擴展和5K GPU小時的後訓練，DeepSeek-V3的完整訓練成本僅爲2.788M GPU小時。假設H800 GPU的租金爲每GPU小時2美元，我們的總訓練成本僅爲557萬美元。”

Anthropic首席執行官達里奧·阿莫迪此前透露，GPT-4o的模型訓練成本約爲1億美元。而僅僅是訓練一個7B的Llama 2，就要花費76萬美元。

也就是說，DeepSeek-V3的訓練成本僅爲同性能模型的十幾分之一。這讓整個AI界都爲之震驚。

據報道，仍處於研發過程中的GPT-5，至少已進行過兩輪訓練，每輪訓練耗時數月，僅一輪計算成本就接近5億美元。一年半過去，GPT-5仍未問世。這意味着，新一代通用大模型的訓練成本已達到十多億美元甚至更高。馬斯克旗下的xAI剛完成60億美元融資，重要開支之一是將數據中心Colossus的規模擴大一倍，GPU數量達到20萬顆。

按照這種訓練路徑，未來三年內，AI大模型的訓練成本將上升至100億美元甚至上不封頂。正是在這種背景之下，一段時間以來AI界產生了對Scaling law的質疑。

GPT-5難產，OpenAI轉向了另一條發展路徑：推理模型。並且很快產生成果：令人驚豔的o1推理模型，以及剛發佈的o3推理模型。而o3的卓越表現，讓部分專家驚呼，在前往AGI的路上已經沒有了障礙。

人工智能初創公司深受啓迪，並緊緊跟隨。前不久剛從硅谷考察回來的零一萬物創始人李開復說，過去大家覺得預訓練做好就夠了，一年以後（o1出現後）發現Post train（後訓練）也同樣重要。他透露說，很多AI公司都在向推理模型方面發展，5個月以後會有不少類似o1模型的能力出現在各個模型公司，包括零一萬物，都在往o1方向狂奔。

但DeepSeek-V3的出現，提供了新的可能。更短的時間，更高的效率，更低的成本，達到同等的水平，通用大語言模型的發展路徑選擇上，貢獻了“中國版本”。

新的變化已經發生

事實上，2024年5月6日，DeepSeek發佈DeepSeek-V2開源MoE模型，就以其高效性能在全球AI界掀起了一波熱度。而其API接口價格與同類產品相比斷崖式定爲每百萬tokens輸入1元、輸出2元（32K上下文），僅爲GPT-4-Turbo的近百分之一。

“價格屠夫”的殺入，令智譜AI、字節跳動、阿里雲、百度、騰訊雲旗下大模型隨後不得不跟進降價。而且騰訊和百度宣佈幾款大模型產品免費。雖然有人將DeepSeek-V2稱爲“AI界的拼多多”，但這個比喻不太恰當，因爲二者幾乎沒有共性。

DeepSeek-V3的API定價提高到輸入2元/M tokens，輸出爲8元/M tokens（45天的價格優惠期後），雖然比V2大幅上漲，但也只相當於Claude-3.5-Sonnet費用的1/53，後者每百萬tokens輸入3美元、輸出15美元。

根據記者近兩天對AI從業者的採訪，DeepSeek-V3的出現，爲業界提供了新的啓發。

其一，大模型研發，存在多種可能的發展路徑。

ChatGPT走的是大參數、大算力、大投入的路子，對算力和資金的要求極高，這種資源消耗是絕大多數創業公司無法支撐的。即使是OpenAI、Anthropic融資較豐沛的公司，也面臨投資回報的商業化難題。

推理模型是另一條路子。o1、o3的成果，證明這條路也是可行的。但同樣，它也是建立於相對高昂的算力和資金成本基礎上，尤其是算力。

DeepSeek-V3是第三條路徑。與當前大模型訓練動輒要求萬卡集成相比，它只用2000張A100 GPU訓練，就實現了與GPT-4o和Claude-3.5-Sonnet幾乎等效的成果，不能不令人敬佩。

一位在硅谷從事AI研究的華人工程師告訴21世紀經濟報道記者，不排除還有更多的路徑選擇，比如V3的MLA架構、MoESparse結構與o3的推理能力相結合，可能產生新的大模型範式。如果實現，那將是令人驚異的。

其二，人工智能競爭，中國不僅僅是跟隨者，而是正在大幅提升創新能力。

其實V2發佈時，硅谷就驚訝地稱之爲“來自東方的神秘力量”。DeepSeek創始人樑文鋒2024年7月在接受媒體採訪時說，硅谷習慣於將中國AI公司視爲follow的角色，當一箇中國公司以創新貢獻者的身份，加入到他們遊戲裡去，而且表現優異時，他們就很震驚。

樑文鋒認爲，更多的投入並不一定產生更多的創新，否則大廠可以把所有的創新包攬了。研究和技術創新將永遠是DeepSeek第一優先級。值得注意的是，根據業內專家測算，DeepSeek在V2、V3上並不虧錢。

V3獲得硅谷一批知名AI大佬的點贊。Lepton AI創始人、阿里巴巴原副總裁賈揚清表示，DeepSeek是智慧和實用主義的體現：在有限的計算資源和人力條件下，通過聰明的研究產生最好的結果。這是一句相當中肯的評價。

無獨有偶。宇樹科技近日發佈最新的Unitree B2-W機器狗產品視頻：托馬斯全旋、側空翻、360°跳躍轉體、2.8米凌空飛躍，甚至能馱着一名成年男子穩步行走。這幾天，技術討論園區裡到處可見對這家前沿中國機器人企業的歡呼聲，有評論稱其技能足以“吊打”當今最先進的機器人公司波士頓動力。上週還在A股市場掀起了一陣“宇樹科技概念”上漲潮。

其三，創新從來不是單維度、單向度的，AI顛覆式創新正在成爲可能。

研發出ChatGPT的OpenAI確實了不起，它開啓了人工智能的新一輪浪潮。但OpenAI也不是神，也有發展方向的障礙，有融資的難題，有路徑選擇的猶豫。

過去兩三年，AI界一個流行的看法是，如果說硅谷企業擅長從0到1，那我們則擅長從1到10，因爲中國有寬廣的應用市場。但樑文鋒認爲，當前階段仍是AI技術創新的爆發期，而不是應用的爆發期。

從理性的角度，需要承認我們與OpenAI、Anthropic、DeepMind這些世界先進AI公司仍存在較大的差距。比如，即使是代表閉源大模型最前沿水平的V3，多項性能表現與GPT-4o相近，那也是後者7個月前的技術水平；而OpenAI這幾個月已連續推出o1、o3這類新的“變異”物種。更何況，其他大多數的模型產品，放在多語言、多模態的國際視野看，差距要更大。

但這一輪人工智能浪潮之所以更加令人期待，就是因爲，它帶來的革命性想象力甚至要超越互聯網之於傳統經濟的變革力量。正如樑文鋒所說，中國產業結構的調整升級，會更依賴硬核科技的創新。在半導體、大模型等領域，遠未觸達技術天花板，前所未有的機會在等待着中國企業，那些帶來AI顛覆性創新產品或方案模式的公司，就非常可能成爲下一個偉大的企業。

前述硅谷華人工程師感慨地說，再偉大的企業，都不敢止步不前，坐享其成。

5年前，誰會想到，英特爾會淪落到傳聞要被收購的命運？而今天別看英偉達如日中天、GPU供不應求，但如果量子芯片大規模商用的時間表大大縮短，或者像V3這樣不再依賴於萬卡集成做訓練研發，而它繼續固守原有發展路徑，那麼所謂的“英偉達泡沫”提前破滅也是完全可能發生的。

DeepSeek再爆火 AI競賽崛起中國創新勢力

相關資訊