對話智源研究院院長王仲遠:純語言模型無法實現AGI,多模態將是必經之路

出品 | 搜狐科技

作者 | 樑昌均

運營編輯 | 王一晴

自ChatGPT誕生以來,大語言模型被視爲加速邁向AGI(通用人工智能)的一條路徑。但如今,這條技術路線已引發越來越多的質疑,某種程度上也推動了多模態大模型的發展。

提倡世界模型的圖靈獎得主楊立昆(Yann LeCun),最近就懟了獲得諾貝爾物理學獎的“AI教父”傑弗裡·辛頓,認爲其誇大了AI的威脅。“目前的AI還沒有達到人類水平,甚至不如貓聰明,AGI還要等幾年到幾十年。”

此前,OpenAICEO山姆·奧特曼預測,人類有望在幾千天之內達到AGI。馬斯克、黃仁勳,以及剛落得諾貝爾化學獎的谷歌DeepMind CEO哈薩比斯等科技大佬都認爲,AGI可能會在五年左右,甚至更快時間到來。

不過,到底哪種技術路線能夠實現AGI,目前業內還沒有共識。近日,智源研究院院長王仲遠在與搜狐科技等媒體的溝通會上認爲,純語言模型無法實現AGI,技術往後發展一定會有統一的多模態大模型,這將是未來通往AGI的主流技術路線。

爲什麼大語言模型邁向AGI的潛力遭到質疑?王仲遠稱本質是文本數據用完了。“除了文本數據,像圖像、視頻、音頻數據,包括真實世界的數據,是文本數據的十倍、百倍、千倍。”

不過,如何將更加海量的數據有效集成到大模型中去訓練,是需要攻克的問題。智源研究院則在這一前沿領域進行了探索,並率先跑通了一條新的技術範式。

這次溝通會上,王仲遠正式發佈智源研究院歷時半年多研發的原生多模態世界模型Emu3,其實現視頻、圖像、文本三種模態在同一個模型架構下的統一理解與生成。

衆所周知,OpenAI的ChatGPT通過採用大規模的神經網絡預測下一個token,從而爲其帶來智能涌現的能力。那麼,這種能力能否用在圖像、視頻等多模態領域?

目前,在文生圖、文生視頻等多模態生成領域,國內都誕生了不少受用戶關注的產品,其主要都是基於Diffusion或DiT架構爲主的模型,這些架構基本都是爲這些領域而量身設計。

在多模態理解領域,行業內常見做法是,以語言模型爲核心,再把其他視覺信號映射到語言模型上,形成組合式的多模態模型。因此,目前多模態在理解和生成上存在割裂。

Emu3則選擇了另外一條技術路線,擺脫擴散模型或組合式方法,驗證了基於下一個token預測的多模態技術範式,爲多模態發展指明瞭一個方向。

“Attention is all you need 開啓了Transformer這樣一條技術路線,Next-token is all you need可能開啓多模態大模型一種新的訓練範式,可能是下一代大模型的訓練路線。”王仲遠表示。

根據智源的評測,Emu3在圖像生成、視覺語言理解、視頻生成任務上的表現超過了SDXL 、LLaVA-1.6、OpenSora等知名開源模型。

據王仲遠介紹,和目前主流的多模態技術路線相比,Emu3所採用的技術範式,最核心的區別在於採用一個大一統的模型去解決所有多模態的生成和理解問題,能夠做到文本、圖像、視頻等多模態的輸入和輸出,並實現了多模態理解和生成的統一。

“現在的產業界在多模態方面,依然比較像傳統的模式,即針對特定的產品和任務去做模型。”王仲遠表示,Emu3則不需要去使用多種模型,只需要一個模型解決所有的事情,實現了“One for world,world in one”。

得益於這種統一大模型更通用、更泛化的能力,它未來將在機器人、智能硬件、多模態交互、自動駕駛等領域都具備落地應用的潛力。

他還強調,目前Emu3這種大一統多模態大模型在Scaling Law上的潛力還剛剛顯現。如果數據、參數、算力等繼續十倍提升,模型能力也將大幅增強。據瞭解,目前Emu3參數規模接近百億,採用了數千張卡進行訓練。

“Emu3是大模型發展歷程中的一個重要里程碑,它相當於OpenAI當年發佈的GPT-3。”王仲遠表示,它還遠沒有到像ChatGPT一樣,讓所有人都非常容易去使用和廣泛體驗的階段,希望能和行業企業進一起合作,期待多模態領域出現“ChatGPT時刻”。

今年2月,王仲遠從產業界轉向科研界,接任智源研究院院長。談及過去半年在多模態上的探索,他感慨,不斷在絕望和希望之間掙扎。“這就是科學探索的魅力,如果一帆風順,就不是真正意義上的科學探索和創新。”

目前,智源已將Emu3的關鍵技術和模型開源,希望行業能夠共建發展。此次溝通會上,王仲遠闡釋了智源進行多模態探索的初衷、具體的技術考量,以及實現AGI的技術路線爭議等,以下是對話精編。

Emu3爲多模態發展指明瞭方向,

技術替代週期會很長

媒體:智源研發Emu3的初衷和目標是什麼?

王仲遠:我們一直強調智源的機構定位,要做企業不願意做,高校做不了的原始創新。智源要做下一代探索,做未來三至五年纔會被行業認可的技術路線判斷。

大語言模型,市場已經復現。但在多模態大的研究方向上,一直沒有探索出真正的基礎模型。當下的多模態理解,多模態生成,比較像之前的深度學習的方法,針對特定的產品、特定任務,這對Scaling Law或者AGI 來講,產業界現有的方法是不夠的。

Emu3是我們認爲在整個大模型發展技術路線上必須要攻克的技術方向:原生多模態,統一理解和生成。過往智源在大語言模型上爲行業帶來了很多的技術思潮和方向,在多模態訓練方向上,智源也需要爲整個行業指明一個方向。Emu3的意義很有可能會在一兩年之後,大家會有更強烈的感知。

媒體:Emu3是如何實現圖像、視頻和文字的統一輸入和輸出的?

王仲遠:Emu3將文本、圖像、視頻各種模態的信息通過統一的tokenizer 映射到一個離散空間,通過Autoregressive(自迴歸)的方式進行統一訓練。相當於發明了一種文字、圖像、視頻統一的“新語言”,這種語言能夠在一個統一的空間裡表達。

媒體:Emu3的多模態推理能力如何?和市場上生圖、生視頻等多模態大模型有什麼區別?

王仲遠:Emu3不是一個視頻生成模型,也不是一個圖像生成模型,它是一個原生的大一統多模態,還能做文字、圖像、視頻的理解。它是對已有的多模態大模型技術路線的顛覆,但是這個顛覆不是突然出來的,學術界、產業界一直都在探索,只是智源率先做出來了。

它綜合能力很強,效果已經超越了很多開源模型,但還沒有達到每一個方向上的最優,也還沒有超越閉源模型的能力,這是跟資源投入、訓練時間有關。

它很大的一個潛力是因爲圖像、視頻、文本都在Token空間,可以做大規模的跨模態推理,可以是圖像,視頻或文本,類比o1 系列,具備更大規模化的能力。

媒體:Emu3驗證的技術範式和過去的範式有什麼優勢?

王仲遠:第一,多模態肯定是大模型發展的下一個重要方向。現在的多模態,或者是基於 Diffusion架構來做生成,或者是組合式模型,即把語言模型與CLIP結合的範式。

Emu3是把生成和理解統一,把文字、圖像、視頻從原生上,從最開始訓練的時候就統一,並且具備擴展性,而且使用的是Autoregressive的方式,這種類似於語言大模型的訓練架構,能夠解決大一統的問題。

第二,能夠複用現有的硬件基礎設施,同時我們也證明了Scaling law,Emu3比前兩代的版本有了巨大的效果提升。這很有可能是下一代多模態大模型的訓練範式,在多模態上,我們第一次先於國際社會發布,率先驗證了新的大一統的原生多模態技術路線。

媒體:您提到了Emu3的優勢,它相較其它技術路線的侷限性是什麼?

王仲遠:卷積神經網絡在視覺用的非常廣泛,DiT是過去這一兩年新提出來的技術路線,效果確實比之前模型要好。DiT技術路線已經走通了,從確定性的角度來講,企業會更願意復現這樣的技術路線。

Emu3的發佈,更多的證明在Autoregressive這條技術路線上的突破。它所需的資源並不比大語言模型小,但是能極大程度複用現有的大語言模型訓練的基礎設施,比如GPU集羣,訓練框架不需要做特別大的修改,有望加速整個多模態大模型的迭代和最終產業應用。

媒體:Emu3對DiT或前幾代的技術路線,是降維打擊還是會完全替代?

王仲遠:深度學習發展專用模型,在特定的產品應用中有其獨特之處。例如,人臉識別,即使大模型做到現在這個程度,也沒有直接替換人臉識別的專用模型。在圖像、視頻特定的一些場景,DiT架構有獨特的優勢。

Emu3大一統模型更重要的是更通用、泛化的能力以及理解和生成統一的能力上的獨特優勢,我們不期待立刻能夠替換掉所有的DiT技術路線,替代的週期會比較長,但是技術的先進性是可以很容易做出判斷。

實現AGI僅靠語言不夠,

統一多模態大模型將是主流路線

媒體:大語言模型中有Scaling law且認爲正在失效,這在多模態模型適用嗎?瓶頸會是什麼?

王仲遠:Scaling law在多模態上是存在的,如果模型參數進一步提升,多模態大模型的語言能力也會大幅提升。Emu3是原生的,如果語言能力大幅提升,那麼跨模態的理解和推理能力也會隨之大幅提升。

Scaling law在語言模型上有沒有失效已經開始有些爭論,但是在多模態大模型上還遠沒有打開,還要去進一步驗證千億乃至萬億模型,也可以再往MoE的架構演進。所以,大語言模型所有可能的路徑以及發展趨勢,在多模態大模型上都可以得到進一步的驗證。最大的瓶頸還是在算力,在多模態上驗證Scaling law,參數如果擴大 10 倍,所需的算力必須增加。

媒體:現在大模型的技術路線非常多元化,這種多元化會是大模型的發展趨勢嗎?

王仲遠:大語言模型的技術路線範式並沒有發散,依然在沿着GPT的技術路線。反而是多模態模型,現在太發散了,沒有收斂,比如,多模態的理解和生成能不能夠統一?大家還沒有形成共。

Emu3的重要的意義是讓語言模型的技術路線和多模態的技術路線不是一個分叉的關係,而是一個統一的關係,我們認爲統一的多模態基座是未來的趨勢。

這個基座到底應該怎麼訓練?之前有很多的猜想和提議,Emu3 第一次成功驗證了這條技術路線,將不同的模態信息,用原生的、同一種架構給壓縮起來,並且展示了非常好的理解和生成效果。我們相信Emu3 會爲未來整個多模態基座模型的發展指明一個收斂的方向,是下一代的多模態大模型的訓練範式。

媒體:最近楊立昆說AI比貓還笨,是否代表GPT路線的錯誤?您如何看他提出的世界模型的技術路線?

王仲遠:楊立昆認爲現在的大模型比貓還笨,很重要的一個論點是他認爲純語言模型到不了AGI。從這個意義上來講,我們也認爲純語言模型是不夠的。如果要理解感知、推理這個世界,首先要看得到、感覺到世界,才能把不同模態的信息進行交互理解。

真正的AGI需要理解這個世界,這恰恰是Emu3統一多模態技術路線的非常重要的貢獻。他還提出來一個新的認知框架,該框架通過借鑑於動物大腦,設計了多個可以類比的子功能模塊,從而幫助實現具有自主性的人工智能系統。我們應該永遠鼓勵和支持不同的技術路線的探索,統一多模態世界模型也是其一。

媒體:現在通往AGI的路徑,有各種不同說法或路線,如OpenAI最近又開始做強化學習,您對實現AGI的路徑怎麼看?

王仲遠:對怎麼達到AGI,行業現在沒有共識,語言模型能不能,有很多爭論。OpenAI的o1確實證明了大語言模型加強化學習能夠進一步的提升模型的智能化的水平,但它到底能不能通往AGI仍然有爭論。

楊立昆就認爲大語言模型不足以通向AGI,我們認爲AGI 是要真正像人類一樣,不只是思考推理,還必須是要多模態的。多模態是AGI的必經之路,尤其是人工智能進入物理世界,進入各行各業的必行之路。

媒體:您爲什麼認爲多模態大模型是通往AGI更好的路線?

王仲遠:當前的多模態理解某些效果不錯,是先把語言學到了非常高的能力之後,再把視覺的信息做了一個橋接,發揮語言的處理能力,在我們看來這更像是一種打補丁的方式,不是像人類大腦的原生方式。

Emu3的技術路徑,是一開始就像人類一樣,接收了各種不同模態的信號,展示出了能解決這些不同問題的能力。從最終效果上來看,Emu3可以做到每一個方向上最優秀的模型的效果,但這背後涉及到資源、訓練時間、成本問題,包括各方面投入。

作爲一個研究機構,我們更重要的是開源這條技術路線,給行業指明一條新的方向。我們現在做的是0-1的突破,但是1-10還需要大家共同努力。