DeepSeek再爆火 AI競賽崛起中國創新勢力
DeepSeek再次爆火。
近日,國內AI初創公司DeepSeek發佈了新一代大語言模型DeepSeek-V3,同時宣佈開源。在多項基準測試中,V3的成績超越了主流開源模型,並和世界頂尖的閉源模型不分伯仲。
更重要的是,V3的訓練成本極低,僅爲GPT-4o的二十分之一;售價也低,輸入+輸出價格約爲GPT-4o的十分之一。不過其目前不支持多模態輸入輸出。
DeepSeek是量化資管公司幻方旗下企業,成立於2023年7月。
被冠以“AI界高效低價典範”的DeepSeek,給當前的人工智能技術與發展路徑提供了一個新的方向,貢獻了AI競賽中的中國力量。
V3不僅在人工智能界產生轟動效應,也因它的母公司是知名量化基金公司,而在資本市場引發熱烈討論。
另據報道,近期小米正在搭建GPU萬卡集羣,雷軍親自以千萬年薪挖來了DeepSeek-V2關鍵開發人員之一的95後羅福莉,後者被譽爲“AI天才少女”。
DeepSeek的“暴力美學”
多個實測表明,數學基準(MATH 500)和AIME 2024測試方面,V3超越了當前國際主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o;代碼能力(Codeforces 基準),比國外主流大模型高出約30分;軟件工程(SWE-bench Verified)和知識問答方面,略遜於Claude-3.5-Sonnet。
因此,DeepSeek的技術論文自豪地宣稱,“綜合評估表明,DeepSeek-V3-Base已經成爲目前可用的最強大的開源基礎模型,特別是在代碼和數學方面。它的聊天版本在其他開源模型上的表現也優於其他開源模型,並在一系列標準和開放式基準測試中實現了與GPT-4o和Claude-3.5-Sonnet等領先閉源模型的性能相當。”
更重要的是,這一成就,是在極低的訓練成本下取得的。
DeepSeek在其53頁的技術論文披露:“我們的預訓練階段在不到兩個月的時間內完成,成本爲2664K GPU小時。結合119K GPU小時的上下文長度擴展和5K GPU小時的後訓練,DeepSeek-V3的完整訓練成本僅爲2.788M GPU小時。假設H800 GPU的租金爲每GPU小時2美元,我們的總訓練成本僅爲557萬美元。”
Anthropic首席執行官達里奧·阿莫迪此前透露,GPT-4o的模型訓練成本約爲1億美元。而僅僅是訓練一個7B的Llama 2,就要花費76萬美元。
也就是說,DeepSeek-V3的訓練成本僅爲同性能模型的十幾分之一。這讓整個AI界都爲之震驚。
據報道,仍處於研發過程中的GPT-5,至少已進行過兩輪訓練,每輪訓練耗時數月,僅一輪計算成本就接近5億美元。一年半過去,GPT-5仍未問世。這意味着,新一代通用大模型的訓練成本已達到十多億美元甚至更高。馬斯克旗下的xAI剛完成60億美元融資,重要開支之一是將數據中心Colossus的規模擴大一倍,GPU數量達到20萬顆。
按照這種訓練路徑,未來三年內,AI大模型的訓練成本將上升至100億美元甚至上不封頂。正是在這種背景之下,一段時間以來AI界產生了對Scaling law的質疑。
GPT-5難產,OpenAI轉向了另一條發展路徑:推理模型。並且很快產生成果:令人驚豔的o1推理模型,以及剛發佈的o3推理模型。而o3的卓越表現,讓部分專家驚呼,在前往AGI的路上已經沒有了障礙。
人工智能初創公司深受啓迪,並緊緊跟隨。前不久剛從硅谷考察回來的零一萬物創始人李開復說,過去大家覺得預訓練做好就夠了,一年以後(o1出現後)發現Post train(後訓練)也同樣重要。他透露說,很多AI公司都在向推理模型方面發展,5個月以後會有不少類似o1模型的能力出現在各個模型公司,包括零一萬物,都在往o1方向狂奔。
但DeepSeek-V3的出現,提供了新的可能。更短的時間,更高的效率,更低的成本,達到同等的水平,通用大語言模型的發展路徑選擇上,貢獻了“中國版本”。
新的變化已經發生
事實上,2024年5月6日,DeepSeek發佈DeepSeek-V2開源MoE模型,就以其高效性能在全球AI界掀起了一波熱度。而其API接口價格與同類產品相比斷崖式定爲每百萬tokens輸入1元、輸出2元(32K上下文),僅爲GPT-4-Turbo的近百分之一。
“價格屠夫”的殺入,令智譜AI、字節跳動、阿里雲、百度、騰訊雲旗下大模型隨後不得不跟進降價。而且騰訊和百度宣佈幾款大模型產品免費。雖然有人將DeepSeek-V2稱爲“AI界的拼多多”,但這個比喻不太恰當,因爲二者幾乎沒有共性。
DeepSeek-V3的API定價提高到輸入2元/M tokens,輸出爲8元/M tokens(45天的價格優惠期後),雖然比V2大幅上漲,但也只相當於Claude-3.5-Sonnet費用的1/53,後者每百萬tokens輸入3美元、輸出15美元。
根據記者近兩天對AI從業者的採訪,DeepSeek-V3的出現,爲業界提供了新的啓發。
其一,大模型研發,存在多種可能的發展路徑。
ChatGPT走的是大參數、大算力、大投入的路子,對算力和資金的要求極高,這種資源消耗是絕大多數創業公司無法支撐的。即使是OpenAI、Anthropic融資較豐沛的公司,也面臨投資回報的商業化難題。
推理模型是另一條路子。o1、o3的成果,證明這條路也是可行的。但同樣,它也是建立於相對高昂的算力和資金成本基礎上,尤其是算力。
DeepSeek-V3是第三條路徑。與當前大模型訓練動輒要求萬卡集成相比,它只用2000張A100 GPU訓練,就實現了與GPT-4o和Claude-3.5-Sonnet幾乎等效的成果,不能不令人敬佩。
一位在硅谷從事AI研究的華人工程師告訴21世紀經濟報道記者,不排除還有更多的路徑選擇,比如V3的MLA架構、MoESparse結構與o3的推理能力相結合,可能產生新的大模型範式。如果實現,那將是令人驚異的。
其二,人工智能競爭,中國不僅僅是跟隨者,而是正在大幅提升創新能力。
其實V2發佈時,硅谷就驚訝地稱之爲“來自東方的神秘力量”。DeepSeek創始人樑文鋒2024年7月在接受媒體採訪時說,硅谷習慣於將中國AI公司視爲follow的角色,當一箇中國公司以創新貢獻者的身份,加入到他們遊戲裡去,而且表現優異時,他們就很震驚。
樑文鋒認爲,更多的投入並不一定產生更多的創新,否則大廠可以把所有的創新包攬了。研究和技術創新將永遠是DeepSeek第一優先級。值得注意的是,根據業內專家測算,DeepSeek在V2、V3上並不虧錢。
V3獲得硅谷一批知名AI大佬的點贊。Lepton AI創始人、阿里巴巴原副總裁賈揚清表示,DeepSeek是智慧和實用主義的體現:在有限的計算資源和人力條件下,通過聰明的研究產生最好的結果。這是一句相當中肯的評價。
無獨有偶。宇樹科技近日發佈最新的Unitree B2-W機器狗產品視頻:托馬斯全旋、側空翻、360°跳躍轉體、2.8米凌空飛躍,甚至能馱着一名成年男子穩步行走。這幾天,技術討論園區裡到處可見對這家前沿中國機器人企業的歡呼聲,有評論稱其技能足以“吊打”當今最先進的機器人公司波士頓動力。上週還在A股市場掀起了一陣“宇樹科技概念”上漲潮。
其三,創新從來不是單維度、單向度的,AI顛覆式創新正在成爲可能。
研發出ChatGPT的OpenAI確實了不起,它開啓了人工智能的新一輪浪潮。但OpenAI也不是神,也有發展方向的障礙,有融資的難題,有路徑選擇的猶豫。
過去兩三年,AI界一個流行的看法是,如果說硅谷企業擅長從0到1,那我們則擅長從1到10,因爲中國有寬廣的應用市場。但樑文鋒認爲,當前階段仍是AI技術創新的爆發期,而不是應用的爆發期。
從理性的角度,需要承認我們與OpenAI、Anthropic、DeepMind這些世界先進AI公司仍存在較大的差距。比如,即使是代表閉源大模型最前沿水平的V3,多項性能表現與GPT-4o相近,那也是後者7個月前的技術水平;而OpenAI這幾個月已連續推出o1、o3這類新的“變異”物種。更何況,其他大多數的模型產品,放在多語言、多模態的國際視野看,差距要更大。
但這一輪人工智能浪潮之所以更加令人期待,就是因爲,它帶來的革命性想象力甚至要超越互聯網之於傳統經濟的變革力量。正如樑文鋒所說,中國產業結構的調整升級,會更依賴硬核科技的創新。在半導體、大模型等領域,遠未觸達技術天花板,前所未有的機會在等待着中國企業,那些帶來AI顛覆性創新產品或方案模式的公司,就非常可能成爲下一個偉大的企業。
前述硅谷華人工程師感慨地說,再偉大的企業,都不敢止步不前,坐享其成。
5年前,誰會想到,英特爾會淪落到傳聞要被收購的命運?而今天別看英偉達如日中天、GPU供不應求,但如果量子芯片大規模商用的時間表大大縮短,或者像V3這樣不再依賴於萬卡集成做訓練研發,而它繼續固守原有發展路徑,那麼所謂的“英偉達泡沫”提前破滅也是完全可能發生的。