Yann LeCun AI思考的最新小結:從機器學習到自主智能

文:城主

這是AI巨頭Yann LeCun9.29在德國的一個演講。題目“從機器學習到自主智能”。這個主題的演講Yann巨頭之前也曾講過,這一次在德國所做的talk更加概括提煉。

LeCun之前PK參議院()很是加分,這個演講代表了他AI思考的最新小結,講得還通俗易懂,推薦~

視頻完整版傳送門【AI巨頭Yann LeCun最新德國演講:從機器學習到自主智能-嗶哩嗶哩】 https://b23.tv/b3eMUSW

=以下是本城根據講話整理成文=

我非常高興和榮幸地歡迎Yann LeCun教授。

感謝您接受我們的邀請並赴慕尼黑參與今日的講座。LeCun教授現任Meta的首席人工智能科學家,並擔任紐約大學計算機科學銀教授。他在巴黎取得計算機科學博士學位後移居到美國,進入知名的AT&T貝爾實驗室併成爲圖像處理研究部的負責人。之後,他於2003年加入紐約大學,2012年又被任命爲紐約大學數據科學中心的創始主任。

LeCun教授在卷積神經網絡的發展上有着傑出的貢獻。這種技術基本上解決了圖像科學和計算機視覺領域的許多難題。特別值得一提的是,一個特殊的卷積神經網絡結構名爲LeNet,這一名字在某種程度上也代表了我們今天所看到的深度學習和AI的顯著發展。他的這些突出貢獻使他榮獲衆多獎項。其中,他是美國國家科學院和國家工程院的成員,並獲得了諸如來自EPFL的榮譽學位、IEEE神經網絡先鋒獎和2019年的圖靈獎等衆多榮譽,這個獎項通常被譽爲計算機界的諾貝爾獎。僅僅幾周前,《時代》雜誌將他評選爲全球AI領域100名最具影響力的人物之一。

他還發表了許多引發公衆爭議的觀點,併爲公開的AI討論做出了重要貢獻,特別是關於現在盛行的大型語言模型。他深入探討了機器如何能夠像人類和動物那樣有效地學習,以及機器如何進行推理和計劃。在此次演講中,Yann LeCun教授將探討基於新的模塊化認知架構的自主智能代理的發展路徑。

歡迎Yann教授上臺發言。

非常感謝您的熱情介紹和邀請,同時感謝所有來到這裡的人。但我需要糾正一個誤會,我並沒有爲LeNet命名。這個名稱是我在貝爾實驗室時的實驗室主任所起的,但我認爲這確實是一個很好的名字。

接下來,我要討論的是目標驅動人工智能。我曾用“自主機器智能”作爲此次演講的標題,但這似乎讓人們感到擔憂,他們擔心機器將會自主,超出我們的控制範圍。因此,我將其更名爲“目標驅動AI”,這更加精確地描述了這一領域。這些系統不僅僅是我們已經實現的,而是我們期望能夠實現的:具有學習、記憶、推理、計劃和常識的系統,具備我們在動物和人類中觀察到的相同學習能力和智慧。

讓我先分享一些前沿技術。目前,關於AI的爭論很多,許多人擔心AI的影響。每當有技術革命,人們總是對未知感到恐懼。AI有望引發一場大革命,這使得人們的恐懼有所增加。但在討論其潛在風險之前,我們應該首先看到它的好處。現在,AI已經在醫學、診斷、醫療助理和治療計劃方面帶來了巨大的好處,如今,在歐盟銷售的每輛汽車都必須配備自動緊急制動系統。這種系統能夠自動停車,從而避免正面碰撞,它已經減少了40%的碰撞,這確實是一種可以拯救生命的技術。在所有我知道的系統中,大多數都使用了卷積網絡技術。德國,尤其是巴伐利亞,是這方面的領導者,這種早期的系統是由Benz開發的。

輔助駕駛、自動駕駛、能源存儲與管理、環境監測與保護等都是當前的熱門領域。但其中,內容信息與管理可能是人工智能最廣泛的應用,尤其在工業、製造、信息系統以及質量控制等方面。教育領域也開始預測個性化教育的趨勢。隨着翻譯、遠程展示、增強現實、虛擬現實的發展,這些技術也廣泛應用於科學、生物學、基因組學、神經科學以及特別是無序系統、複雜系統以及超大規模模擬的物理學領域,以及化學和材料科學等。我們經常討論關於創新和藝術的話題,人工智能的核心就是提高創造力,使那些可能不具備技術基礎的人也能創造藝術。人工智能已經深入到了各個領域。例如,幾年前Meta公司的計算機視覺系統就能展示物體檢測、人體跟蹤、語義分割等功能。但是,計算機視覺的研究還遠未完成,這也是爲什麼下週巴黎會有ICCV會議。目前,該領域仍有很多工作要做,儘管人工智能已經取得了很多進展。

在醫學方面,醫學成像技術正在受到廣泛關注。我在紐約大學的同事們使用3D圖像識別技術來檢測例如乳腺X光中的腫瘤或MRI圖像中的特定區域。其中一個與Meta公司的FAIR實驗室合作的項目成功將MRI數據採集速度提高了四倍,而不降低圖像質量。這意味着原本需要40分鐘的MRI檢查現在只需要10分鐘就能完成,這得益於深度學習技術。

在科學研究上,現在神經科學家用來描述大腦工作原理的模型是基於人工神經網絡。使用功能性MRI數據,我們觀察到的情況其實與卷積網絡模型非常相似。而卷積網絡的設計原則其實是受到了視覺皮層結構的啓發。此外,還有研究試圖利用大型語言模型來解釋人腦在處理語言時的活動,但目前這種模型在語言處理方面的效果並不如卷積網絡模型在視覺處理方面的效果。這也意味着我們在理解語言處理的過程中還遺漏了一些關鍵要素。

在物理學,尤其是高能物理學中,現在有很多模型是基於AI來描述粒子碰撞等現象。圖像處理技術也被用來探索外太空中的行星。據統計,現在大約12%的物理學論文都提到了人工智能技術,這在短時間內的進展確實令人驚訝。而在大規模宇宙模擬中,人工智能也被用來驗證關於暗物質等的理論。FAIR實驗室的一個項目“開放催化劑項目”也是一個很有意思的研究,大家都可以參與其中。

該網站名爲open-catalyst.org。這個項目的核心理念是:若我們掌握了一種優越、高效且可擴展的能源儲存方法,那麼我們就有機會應對氣候變化問題。理想情況下,如果我們有了合適的能源儲存方式,僅覆蓋小片的沙漠區域使用太陽能電池板,便可生產足夠的能源供應歐洲乃至全球。關鍵是我們需要一種有效的能源儲存方式。儘管德國政府已對可再生能源進行了大力支持,但由於我們無法預測風力和陽光的存在,使得可再生能源仍未完全發揮其潛能。在無風或無陽光的時刻,我們需要另一種能源來源,或是能夠儲存並傳輸到需要的地方的能源。

理想的能源儲存方法是以氫氣或甲烷的形式。最直接的方式是從水中分離出氫氣和氧氣。這個過程包括將水放入並設置兩個電極,接着將氫氣和氧氣進行分離。但難點在於,如果使用諸如鉑這樣的催化劑進行該過程,儘管它可以實現大規模應用,但其效率並不高。因此,主要的挑戰是是否能設計新的化合物或催化劑,來高效地促進這一反應,且不需要使用像鉑這樣的高價材料,使其具有更好的可擴展性。我們的策略是進行大量的化學模擬,主要基於兩種不同化合物上的水的DFT模擬。結合模擬和實驗獲取數據後,我們希望利用這些數據訓練一個機器學習系統,從中找出規律,進而設計出新的、效果相當但成本更低的材料。這個項目的前景十分吸引人,雖然不確定是否一定會成功,但仍然值得嘗試。

重要的是,我們近年來在人工智能和機器學習領域所取得的進展,大部分都歸功於一種我們稱爲“自我監督學習”的技術。許多人可能已經在使用或至少聽說過這種技術。從本質上看,自監督學習是一套技術,可以在不需要標註數據或人工干預的情況下,訓練系統來理解數據和世界。這種技術在自然語言處理領域尤爲成功。現今,大部分NLP系統的訓練方式,無論是基於LLM或其他模型,都採用了這種方法。其核心思想是:取一段文字,刪除其中的某些單詞,然後訓練一個大型神經網絡,如Transformer架構,來預測這些被刪除的單詞。爲了使這些系統正常工作,還需要將單詞進一步細分爲子詞單元或標記,因爲大多數語言的單詞都含有前綴、詞根和後綴。這種訓練方式的代表性模型就是BERT,它完全基於自我監督學習,除了原始文本外,不需要任何其他數據。經過預訓練後,您可以使用系統生成的內部表示爲其他任務,如翻譯、仇恨言論檢測或摘要等,提供輸入。

這裡還有一個令人印象深刻的例子,是我在巴黎博覽會的同事所開發的系統,名爲Dino V2。這可以被視爲一個基礎的視覺模型,經過訓練後,能夠從圖像中提取特徵,進而這些特徵可以被應用於各種任務,如分類、細粒度分類、深度估計、語義分割和實例檢索等。我在這裡展示了一些視頻中的應用案例。這種方法需要非常少的監督,但由於其在大量數據上的預訓練,因此僅需訓練一個淺層網絡,就可以在深度估計、分類等領域擊敗現有技術。這一技術已經在線上開放互動使用,您可以通過提供的URL來體驗。

這些展示的是特徵提取的可視化例子。它們採用不同的顏色表示不同的特徵向量,每種顏色代表一個主成分,如果你對此有所瞭解。這些都是典型的圖像示例。現已有很多應用,如生物圖像分析、天文學和環境保護。我要介紹的下一個例子與此相關。他們利用了Dino V2的功能,並在其上訓練了一個相對較小的模型,從衛星圖像中預測樹木的高度。我們手頭有大量的全球衛星圖像,其分辨率爲半米。這些圖像可以從衛星成像公司獲取。在某些地區,激光雷達數據能夠提供樹木的高度信息。你可以使用這些數據來訓練模型,然後將其應用到全球範圍。通過知道樹的高度,我們可以估算樹木鎖定了多少碳。這是非常重要的信息,因爲它涉及到我們是否應該保護森林,以及我們是否應該種植更多的樹木和在何處種植。

關於這個主題,有許多詳盡的出版物。在我展示的自然語言處理中,自我監督學習的另一個成功案例是在生物學中。在那裡,一些詞被刪除,尤其是在蛋白質組學中。蛋白質是由氨基酸組成的序列,我們知道存在數億種氨基酸。你可以取得氨基酸序列,刪除一些氨基酸,然後訓練一個大型神經網絡預測缺失的氨基酸。這個系統學習了代表氨基酸序列的表示形式,然後使用這種表示作爲輸入來預測蛋白質的構象,其摺疊方式,以及它是否可以與另一種蛋白質的特定部位結合。我們的DeepMind同事做了一個稱爲AlphaFold的著名項目,但這種利用預先訓練的蛋白質Transformer的概念最早是我在FAIR的同事提出的。他們已經離開FAIR,並圍繞這個概念創建了一個創業公司。這一方法取得了巨大成功,全球有數千研究團隊正在使用這些數據。目前已有一個包含6億個蛋白質的預測結構的蛋白質圖譜,名爲ESM宏基因組圖譜,可在ESMatlas.com上查找。這對生物學家來說是一個寶貴的工具,它可能會徹底改變我們的藥物設計和生命機制理解方式。

另一個印象深刻的項目是“No Language Left Behind”,由FAIR的全球團隊完成。這是一個能夠翻譯200種語言的系統,無論翻譯方向如何。當你瞭解這些語言時,你會發現其中有很多我們從未聽說過的語言。但對於這些說這些語言的人們來說,保存他們的文化並能以自己的語言表達自己是非常重要的。有趣的是,儘管有40,000種可能的翻譯方向,但只有2,400對方向有數據覆蓋。但是,由於我們訓練了一個巨大的Transformer來表示各種語言,系統可以利用語言家族之間的相似性來獲得與語言無關的表示,從而允許系統在任何方向上進行翻譯,即使是那些從未被訓練過的方向。按照當前標準,這是一個相當大的模型,擁有540億個參數。同一團隊近期也發佈了一個名爲Seamless的項目,該項目可以進行語音到語音、語音到文本、文本到語音和文本到文本的翻譯,以及語音識別和語音合成。這種語音到語音的轉換尤其有趣,因爲它可以翻譯那些並不直接用於語音書寫的語言。該系統可以處理上千種語言,這真的是令人震驚的。深度學習的一些應用可能不那麼明顯,但它連接了人與知識,也連接了人與人。目前,深度學習在社交網絡和搜索引擎等在線服務中的部署可能是最大的。如果從Google、Meta或Microsoft中移除深度學習,這些公司可能會遭受重創,因爲它們的業務在很大程度上是基於這種技術的。

深度學習能夠助力我們處理信息洪流,如搜索、檢索、排名和問答等任務。爲了理解這些內容,機器必須深入理解其背後的含義。這種技術對許多人來說尤爲有益,例如那些不識字、盲人或有視力障礙的人羣。如今,有近30億的人羣無法充分利用現代技術,因爲他們或多或少地存在閱讀障礙。人工智能的一個主要應用是篩選並移除非法和危險的內容,但這絕非易事。儘管追求完美可能是一個遙不可及的目標,但值得注意的是,人工智能已經取得了巨大的進步。例如,五年前,Facebook使用當時相對簡單的機器學習技術方法,僅能自動刪除約20%至25%的仇恨言論。但自從自我監督的預訓練Transformer技術出現後,這一比例在去年已經增加到95%。

很多人對人工智能持有各種觀點,其中一些人對其知之甚少。他們可能會告訴你關於人工智能的各種潛在危險,如如何破壞民主,或者因爲假信息造成的影響。然而,他們可能沒有意識到的是,人工智能實際上是這些問題的解決辦法。實際上,社交網絡的內容審覈已經大量地依賴了人工智能的進步,而那些試圖破壞這些系統的人在人工智能技術方面卻遠遠落後。

人們都很興奮地討論生成式人工智能,如自迴歸的大型語言模型等。許多人都嘗試過利用先進技術生成圖像,例如Meta的Make-a-Scene、OpenAI的Dall-E和Google的ImageGen。事實上,最新的進展來自Meta,它最近發佈了一篇論文,並隨後推出了名爲EMU的產品,這是一個可以根據文本提示生成圖像的系統。這個產品在昨天已經與新聞一同發佈,並且它現在可以在Facebook Messenger上使用。通過與Meta.AI對話並輸入相應的命令,用戶可以在幾秒鐘內生成圖像,這在過去需要數分鐘來完成。目前,該團隊正在研究視頻合成技術,這是他們一年前的研究方向。

關於大型語言模型,它們都是基於自迴歸技術。簡單來說,這意味着從一段文本中刪除某些單詞,然後訓練模型來預測這些單詞。這種方法被稱爲自迴歸預測,其效果令人震驚。市場上有許多這樣的模型,例如Meta的Llama、Llama2等,其中一些模型如CodeLlama是專門用於代碼生成的。除了這些,還有ChatGPT、Alpaca、Lambda和Chinchilla等。最近,一個名爲Mistral的產品由巴黎的一家初創公司發佈,該公司的團隊成員曾在FAIR工作,這也是一個值得關注的事實。

這些系統確實展現出了卓越的性能,讓我們都感到震驚。然而,它們也犯下了一些嚴重的錯誤。這些系統並不真正理解這個世界,只是被訓練成根據給定提示生成最有可能的單詞序列。儘管它們經過微調,能夠有效地解決特定的問題,但依然存在事實錯誤和邏輯錯誤。它們的輸出不總是一致的,並且它們沒有真正的推理能力。由於這些系統只是從文本中學習,所以它們對真實世界的理解是有限的。它們沒有常識,無法像我們預期的那樣策劃答案。這意味着用戶可以與像Llama這樣的機器人進行互動。

我提到的聊天機器人MetaAI實際上是Llama2的產品版本。它具有不同的化身,可以被視爲扮演不同的角色。總共有三種模型,每種模型有自己的生產模式。最好的是,它是開源的,所以如果你有強大的GPU,你可以自己運行它。現在,有很多人正在努力使這些模型能夠在移動設備和筆記本電腦上運行,以生成文本。

有趣的是,當Llama剛開始時,我的同事們有所質疑。他們向我展示了Llama的輸出,詢問是否可以發佈在報紙上。當然可以,但我更想知道它是否可以以爵士樂的方式輸出,因爲我更喜歡爵士樂。然而,由於缺乏爵士樂的訓練數據,該請求並未得到滿足,這讓我感到失望。

Meta最近發佈了28種專門針對不同應用的聊天機器人。例如,你可以選擇讓說唱歌手Snoop Dogg扮演地下城主的角色,而其他機器人可能是旅行顧問或廚師。每個機器人都有自己獨特的性格。但問題在於,這些系統並不如我們預期的那樣出色。雖然它們能夠流暢地使用語言,給人一種它們很聰明的錯覺,但實際上,它們並沒有真正的人類智能。

在社交網絡上,如X和Twitter,人們經常討論這些系統。當他們談論某個公司的最新LLM時,這確實很令人興奮。但事實上,我們距離實現人類水平的智能(我稱之爲AGI)還有很長的路要走。

這些系統之所以看起來那麼聰明,是因爲它們接受了大量的數據訓練,使它們積累了大量的背景知識。但大多數人類知識與語言無關,而與我們的日常經驗有關。很多人認爲,這些機器不能制定計劃,並且它們的預測是基於自迴歸的,這在本質上是有缺陷的。

我預測,幾年內,沒有人會使用自迴歸LLM,因爲它有明顯的缺陷。儘管有些人擔心未來的人工智能系統可能比人類更聰明,但基於當前的LLM,這是一個誤解。未來的人工智能系統不會使用現有的架構。他們不會是自迴歸的LLM。

自迴歸LLM的問題在於,它們沒有真正的推理和計劃能力。儘管每個生成的Token的計算是恆定的,但這種機器不會學習到世界是如何運作的,因此它們永遠無法達到人類的智慧水平。

當某家公司的首席執行官聲稱他們擁有世界上最先進的LLM,並預測AGI即將到來時,我們應持謹慎態度。我們目前仍未達到關於這方面的一些關鍵突破。然而,機器最終會在所有領域超越人類的智能,這是毫無疑問的。預計這將在大多數人的有生之年發生,雖然我可能看不到那一天。這個過程可能需要數十年。

這些都與人工智能面臨的挑戰有關,特別是在學習對世界的表徵和預測模型方面。自我監督學習正在努力解決這個問題。目前,對於文本的處理我們已經取得了不錯的進展,但視頻方面仍需努力。同時,AI需要學會推理。比如丹尼爾·卡尼曼的系統一和系統二的概念:系統一是我們不假思索的潛意識行爲,而系統二是需要我們集中注意力的有意識行爲。當前的LLM可以處理系統一的任務,但對於系統二,我們仍需要構建能夠推理的人工智能系統。

丹尼爾·卡尼曼,這位諾貝爾經濟學獎得主實際上是一位心理學家。我曾提出一個解決方案,稱之爲目標驅動人工智能,並公開評審了相關論文。這篇論文不僅是一個工作文件,而且被廣泛評述。我還進行了一系列技術講座,深入討論了基於模塊化認知架構的理念。

這個認知架構包括多個模塊,第一個是感知模塊,它負責感知世界並構建對當前世界狀態的估計。這個估計可能會結合存儲的內存內容,這是未被直接感知到的信息。接下來是世界模型,它的任務是預測一系列行動的結果。演員模塊則想象這些動作,並將其輸入世界模型。這個模型會預測一系列行動的潛在結果。

系統的主要目標是找到一個行動序列,這些行動預計會滿足成本模塊定義的約束條件。成本模塊基本上是系統的驅動力,表示系統當前的目標和整體目的。系統從世界模型獲取預測,然後計算其成本,基本上衡量系統的不舒適度。系統的任務就是找到一個最小化其成本的行動序列。

此外,您可以想象一些安全措施,如家用機器人在切洋蔥時不會突然揮動其手臂,這樣可以確保系統的安全性。這些措施在系統推理時已經考慮進去,並確保系統只產生安全的行爲。

您知道,系統在某些情境下可能因爲預期之外的提示而產生不安全的行爲。但在這裡,根據其世界模型,系統是設計成無法執行違反設定護欄的操作的。所以,從這個角度看,只要滿足兩個基本條件,這些系統在本質上是安全的。首先,需要確保護欄的目標本身確實保障了安全性,這是一個頗爲複雜的問題。其次,我們需要假設世界模型是準確的,這也同樣具有挑戰性。可以設想,隨着時間的流逝,這種安全性的實現逐漸展現出來。例如,考慮到一系列操作,如在此場景中的兩個操作。這種思考模式與控制理論中的模型預測控制非常相似,但不同之處在於我們在這裡是在學習世界模型,並可能同時學習相關的成本。

您可以將其視爲一種分層規劃的系統。實際上,人類和動物時刻都在進行這種分層規劃,這是我們日常活動的基本特徵。然而,我們目前尚未完全掌握這一技能。儘管有一些初步的思路和嘗試,但真正的解決方案仍然遙遠。對於有抱負的年輕科學家或研究者,這是一個巨大的機會。如果您能破解分層規劃的秘密,那麼收益將是巨大的。

以我自己爲例,假設我現在位於紐約大學的辦公室,我計劃前往巴黎。在宏觀層面上,我首先需要前往機場然後乘坐飛機。但在這之間,還有許多決策要做,比如根據交通情況選擇機場,考慮哪家航空公司的班次。接下來,我需要考慮如何到達機場,可能是打車。爲了實現這個目標,我需要走出辦公室,叫車。這就涉及到從座位上站起、打開門、走向電梯等一系列更微觀的行動。我們不可能爲從辦公室到巴黎的每一步都制定詳細到毫秒的計劃,這就需要分層規劃。工程師在進行控制操作時確實可以實現這種規劃,但其中的層次結構往往是手動設定的。真正的挑戰在於,我們如何使機器能自動學習並確定行動計劃的合適層次。

這確實是一個待解決的重大問題。如果您計劃進一步深造或攻讀多個學位,這將是一個值得研究的領域。我們希望通過技術如LLM來實現這種功能。在這樣的系統中,Token的生成不再是逐一進行,而是通過推斷一系列滿足多個目標和條件的Token來完成。這會使得LLM更加可控,儘管現在的技術仍然存在侷限性。

最終,我們希望機器能夠學習和理解世界,這正是建立世界模型的目的。當我們考慮在時間t的世界狀態和可能的行動時,我們希望預測時間t+1或之後的世界狀態會是怎樣的。人類和動物在此方面都表現得很出色。嬰兒在最初的幾個月裡就能迅速學習世界的運作方式,從基本的三維空間概念到物體的持續性和重力等基本物理原理。這些大都是通過觀察和實驗學到的。而我們至今尚不清楚如何使機器實現這種學習。這也是爲什麼儘管我們已經擁有了高度智能的系統,如可以輕鬆通過律師考試的系統,但我們還沒有可以自動完成家務的機器人。

任何10歲的孩子都能在短短几分鐘內輕鬆掌握某些事物。目前,我們尚未真正擁有完全自主的5級自動駕駛汽車,儘管任何17歲的青少年都可以在20小時內掌握,並且可以在高速公路上以300公里的速度行駛。很顯然,我們在某些關鍵領域仍然缺乏進展。人類和動物所展現的學習效率,我們仍然不知道如何在機器上覆制。

因此,我們需要培養機器的能力,使其能夠從視頻中學習世界模型,這實際上來源於自然信號。這引導我們轉向自我監督學習的概念,但是現在它是應用於視頻而不是文本。處理文本相對容易,因爲文本是離散的,每種語言中的可能標記數量大約爲30,000個。這使得預測接下來的標記的概率分佈變得相對簡單。但對於視頻,我們尚未找到一種有效的表示所有可能性的方法。

以高速公路爲例,如果你嘗試用一個神經網絡來預測視頻中的下一個場景,你可能只會得到一個非常模糊的預測,因爲它僅僅是所有可能情境的平均值。這就導致我提出了所謂的聯合嵌入預測架構,簡稱JEPA。它是一個非生成式的框架。

大家都在討論生成式人工智能,但我要告訴你的是,生成模型並不是王道。事實上,這些流行的方法,如LLM和其他機器學習方法,都存在侷限性。在生成模型中,你需要從觀察到的數據x預測輸出y,這在文本中是可以的,但在視頻中,這幾乎是不可能的。而JEPA採用的聯合嵌入方式通過編碼器處理x和y,預測是在表示空間中進行的。

這個JEPA有多個版本,我這裡無法詳細介紹,但有興趣的可以查閱相關長篇論文。核心思想是,存在多種方法來訓練這些JEPA。其中一個特別有趣的技術是Image JPA或iJPA,它採用了一種“遮蔽”技巧。簡而言之,你會遮蔽圖像的某部分,並用編碼器對其進行處理,再用另一個神經網絡預測器嘗試預測完整圖像的表示。這種方法效果很好,並在多個任務上都表現出色。

我們還有類似的項目VJEPA,它旨在從視頻中進行自我監督學習。基本上,這種學習模型是爲了模擬嬰兒觀察世界並學習的方式。此項目的相關論文已提交,有些人可能知道這個項目,因爲提交的截止日期是今天。實際上,知道這個日期的人現在可能都在忙於撰寫論文。

截止日期已經過去兩個小時。這意味着您可以使用這些JPEG作爲世界模型,因爲您明白,當您有一個輸入時,您可以爲其提供一系列可能的代理操作,然後它將預測下一個時間步的世界狀態的抽象表示。這也可能作爲我先前提到的大型架構的一部分用於世界模型。

我們確實需要利用人工智能來回答許多問題。這是我倒數第二張幻燈片。人類水平的人工智能距離我們還有多遠?幾年或是幾十年?似乎還需幾十年的時間。這個挑戰可能比我們預期的要大,絕對比某些過於自信的人所想象的要困難。在達到人類級別的人工智能之前,我們可能先實現貓級別的人工智能。

有些人擔心,有一天有人會突然發現人類級人工智能的秘密,並啓動一臺強大的計算機,這臺計算機可能會接管整個世界並消滅所有人。但這種想法簡直荒謬,完全不可能發生。我們會從小規模、低智能的模型開始,例如像老鼠或貓那樣的模型,然後我們將逐漸提高它的智能,並確保其在各種受控環境中被安全地測試。所以,將機器人突然獲得高級智能並失去控制的概念侷限於好萊塢電影是不切實際的。

實際上,並沒有所謂的通用人工智能,因爲智能本身就是多維的。人類只在某些方面表現出色,但在其他許多方面表現平庸。計算機在很多任務上都比我們做得更好,例如國際象棋、圍棋、撲克和許多電子遊戲。還有,僅憑聽歌聲就能識別鳥類,或者通過尾巴的形狀來識別海洋哺乳動物。這是人工智能系統可以做到的,但只有少數人能做到。因此,所謂的通用人工智能(AGI)實際上是一個誤導性的概念。

不可否認,機器將最終超過人類的智能。因此,人們對此感到害怕是可以理解的。但一個有趣的問題是,想象20年或更長時間後,我們每次與數字世界互動都是通過人工智能系統進行的。事實上,如果今天的初創公司和大公司的計劃得以實現,這種情況可能會很快發生。因此,這些人工智能系統將成爲所有人類知識的中心存儲庫。

開源在此背景下顯得尤爲重要,因爲整個互聯網基礎設施都是開源的,並在開源軟件上運行。這是因爲它太重要了,不能被單個公司所控制。對於人工智能系統也是如此。它們必須是開源的,因爲如果所有公民的信息都要通過這些系統進行處理,那麼這些系統對於單個公司或少數公司來說太重要了。這些系統的培訓方式應該是衆包的,像維基百科那樣,收集全球的文化、信息和知識,而不僅僅是從某個特定的文化或地點。這也是我爲什麼強烈支持基於開源的人工智能模型。我和我的同事在Meta公司都支持開源這些基礎模型,因爲這會使它們更安全、更強大,發展得更快,並從更多的人那裡獲得多樣化的文化視角。這爲初創公司和研究項目創建了一個完整的生態系統,他們可以在此基礎上進行構建。這目前是一個非常重要的政策問題,因爲許多公司正在向全球各地的政府施壓,希望將人工智能封閉起來,認爲它過於危險,需要更多的控制和許可。但我認爲真正的危險在於,如果它僅僅掌握在少數人手中。

這些人已經成功地說服英國政府和首相,人工智能的應用需要受到嚴格的監管。顯著地,歐盟委員會似乎也同意這種觀點。然而,我個人相信,如果我們正確地發展和應用人工智能,它有潛力使每個人都更爲聰明。這種情境與我們目前擁有的智能助手相似,彷彿有一羣聰明的人在爲你工作。實際上,成功的領導者往往只與比自己更聰明的人合作。我自己也是如此,我只僱傭比我更有才智的人,因爲這是成功的秘訣。因此,未來我們可能會有比自己還要聰明的人工智能助手。我們無需對它們感到威脅,因爲這些助手會被設計得完全服從我們。這種變化可能會給社會帶來巨大的影響,這種影響與500年前印刷機的出現所帶來的影響相似,或許會引發一個新的復興,因爲智力是我們目前最急需的資源。這將讓人類變得更聰明。

觀衆問答

非常感謝你,Yann,這是一次精彩的演講。我們還有大約10分鐘的提問時間,我相信會有很多問題。

感謝您的精彩演講。您提及了保持代碼的開放性,這是一個很好的觀點。但正如您所說,最近很多技術進步不僅依賴於軟件,還涉及到硬件。大部分的硬件技術都是由大公司進行開發的,他們擁有大量的GPU資源。這在德國,乃至其他國家,都造成了某種限制。您如何看待這一問題?同時,在學術界和Meta公司之間,您是如何進行權衡的?您在大學進行某些研究,而在Meta進行另一些研究嗎?關於未來,您有何看法?

迴應這個問題,我認爲應該使用自動語音識別器,但是由於存在回聲問題,這有時會變得困難。確實,硬件是一個巨大的瓶頸。目前,只有那些能夠進行大規模計算的實體,例如Google、Meta和Microsoft,或是那些可以通過雲服務訪問這些資源的公司,如OpenAI和Anthropic,才能訓練大型語言模型。爲了訓練一個頂尖的語言模型,所需的資金可能高達數千萬歐元,這還取決於所用的方法和規模。如果你想購買一個足夠強大的基礎設施,基本上你需要從NVIDIA那裡購買,而這可能會花費上億。這真是太令人震驚了。因此,我們需要開源這些基礎模型,因爲它們是一種共同的基礎設施,每個人都應該能夠訪問。

感謝您的精彩演講。我注意到您的演示文稿中涉及到人工智能和機器學習的挑戰,其中包括道德、公平和負責任的人工智能。我想知道這些是否是您當前所面臨的挑戰?如果是,您又是如何應對的?

對此,我認爲這些挑戰確實是我們需要面對的,但它們被包含在我之前提到的其他點中。關於如何確保這些人工智能系統的安全性,這仍然是一個問題,因爲我們還沒有開始構建這種類型的系統。但這是一個可以解決的工程問題。我們過去已經爲智能實體,如人類或公司,設計了行爲目標,這就是法律的目的。這些法律旨在確保人類和公司的行爲符合社會的共同利益。當然,腐敗等問題可能存在,但這是一個基本的理念,所以我們對此概念並不陌生。

謝謝你的精彩演講。我想進一步詢問我們之前提到的關於GPU資源的問題。我觀察到在機器學習和人工智能領域,過去的幾年中很多重大突破都依賴於大量的GPU資源,而學術機構往往沒有這樣的資源配置。在這樣的背景下,您認爲學術研究在人工智能領域的前景如何?

實際上,我本身就是學者,並且我身兼多重角色。事實上,很多傑出的創意都起源於學術界。例如,從文本生成圖像的技術實際上最早是在德國的一所大學中提出的。而使用注意力機制的想法,也是Transformer的核心,起源於蒙特利爾大學。這是由迪米特里·巴達諾、喬京勇和約書亞·本吉奧提出的。他們構想了一個翻譯系統,這個系統能夠決定在翻譯英語到德語時應該關注哪些單詞,因爲德語中動詞的位置經常導致翻譯錯誤。他們因此引入了學習注意力機制的概念。隨後,斯坦福大學的Chris Manning採納了這種設計併成功地進行了擴展,贏得了WNT比賽。之後,這個思路被廣泛採納,例如谷歌的研究人員基於此構建了完整的神經網絡,其中的一篇研究論文被命名爲“注意力就是你所需要的”,也就是現在的Transformer。

學術界往往是許多出色創意的發源地。我提到的問題,如分層規劃、從視頻中學習世界模型等,並不需要大量的計算資源來驗證其有效性。如果一個理論被證明是可行的並且有說服力,那麼即使它在某些基準測試中可能不是最佳的,也仍然有其他研究者或機構願意接受並進一步發展它。這就是學術研究產生影響的方式。

如果你考慮一下你的職業生涯,是什麼驅使你, 你會說更多的是對可能發生事情的夢想,或者是對這個主題的唯一興趣?隨着時間的推移,你貢獻的所有工作還可能如何改變?

這確實是一個引人入勝的問題。從根本上說,這是一個科學問題:什麼是智力?大腦是如何工作的?這一大問題,隨着時間的推移,仍然是中心焦點。實際上,存在三個主要的科學問題:宇宙是由什麼構成的?生命是什麼?以及大腦如何工作?這三個問題都是至關重要的。

儘管我也是一名工程師,但對於像大腦這樣的複雜系統,真正理解其工作原理的方式是構建一個類似的系統,然後驗證您在該系統中的所有假設與實際情況是否相符。這就是多層學習、神經網絡,以及背後的卷積網絡的思想來源。它們從大腦中獲得靈感,但我們不能簡單地複製大腦。我們需要理解其背後的基本原理,這確實是驅使我前進的力量。當然,如果有其他引人入勝的應用,不管是有用的還是僅僅有趣的,都是值得歡迎的。雖然我不總是親自這樣做,但我對那些這樣做的人感到非常高興。

您問到我對實體人工智能和機器人學習的看法。我發現這非常有趣,因爲它使用人工智能技術來影響現實世界。實際上,世界模型的概念在語言背景下容易實現,這也是爲什麼我們有如此出色的語言模型。但現實世界的數據,如視頻和機器人的本體感知數據,與此大不相同。與機器人合作的實體AI的優點是您不能夠作弊或採取捷徑。因此,我認爲,這類問題會迫使人們更加真實和坦誠。

我覺得過去幾年在人工智能領域的最有趣的進展不僅僅是大型語言模型。而是那些專注於機器人技術的研究團隊,他們努力使機器人能夠高效學習而無需長時間的模擬訓練。例如,紐約大學的Leroy Pinto,卡內基梅隆大學的Abhinav Gupta和他的團隊,以及伯克利分校的Peter Abbeel、Sergey Levine和Chelsea Finn(後者曾是他們在斯坦福大學的學生)。這些方法都與規劃理念和目標驅動的規劃緊密相關,這些都必須在機器人背景下實現。這確實是一個非常有趣的領域。因此,FAIR設有一個名爲Embody.ai的專門部門。

非常感謝您,Yann,爲我們帶來這次精彩的分享。我們都非常感謝您分享了您對未來人工智能的見解和觀點。