「LLM」這個名字不好,Karpathy認爲不準確、馬斯克怒批太愚蠢

機器之心報道

編輯:陳陳

LLM 應該改名嗎?你怎麼看。

在 AI 領域,幾乎每個人都在談論大型語言模型,其英文全稱爲 Large Language Models,簡寫爲 LLM。

因爲 LLM 中有「Language」一詞,因此,大家默認這種技術和語言密切相關。

然而,知名 AI 大牛 Andrej Karpathy 卻對此有着獨特的見解:

「大型語言模型(LLM)名字雖然帶有語言二字,但它們其實與語言關係不大,這只是歷史問題,更確切的名字應該是自迴歸 Transformer 或者其他。

LLM 更多是一種統計建模的通用技術,它們主要通過自迴歸 Transformer 來模擬 token 流,而這些 token 可以代表文本、圖片、音頻、動作選擇、甚至是分子等任何東西。因此,只要能將問題轉化爲模擬一系列離散 token 的流程,理論上都可以應用 LLM 來解決。

實際上,隨着大型語言模型技術棧的日益成熟,我們可能會看到越來越多的問題被納入這種建模範式。也就是說,問題固定在使用 LLM 進行『下一個 token 的預測』,只是每個領域中 token 的用途和含義有所不同。

如果核心問題真的變成了預測下一個 token,那麼深度學習框架(例如 PyTorch 及其同類框架, 因爲 PyTorch 提供了過於廣泛的操作和層的可配置性而顯得過於普通)也可能過於普通,無法滿足大多數問題隨時間推移的需要。如果 80% 的問題只需要使用 LLM 來解決,那麼成千上萬個可以隨意重新配置的操作和層又有什麼用呢?我認爲這不是真的,但我認爲它只對了一半。」

Karpathy 的這番言論引來很多人圍觀,瀏覽量高達 20 多萬。

Karpathy 曾是 OpenAI 的早期成員之一,之後加入特斯拉領導其自動駕駛的計算機視覺團隊。之後他又回到過 OpenAI,領導着一個專注提升 ChatGPT 的 GPT-4 的小團隊。今年 7 月,他宣佈創立了一家名爲 Eureka Labs 的 AI + 教育公司。

作爲前排吃瓜羣衆的馬斯克非常贊同的表示:這絕對需要一個新名字,「多模態 LLM(Multimodal Large Language Models)」是一個特別愚蠢的名字,因爲第一個詞與第三個詞相矛盾!

機器學習和 AI 研究員、暢銷書《Python 機器學習》作者 Sebastian Raschka 也非常贊同,他表示:如果將 LLM 改爲自迴歸 Transformers 或者其他名字的話,那 Mamba、Jamba、Samba 可以申請加入嗎。不管怎樣,還是非常贊同 Karpathy 觀點。

不過,來自 OpenAI 的研究者 Clive Chan 卻表示:另一方面,也許所有可以用自迴歸方式表達的東西都可以被視爲一種語言。任何事物都可以被轉化爲一串 token 流,因此從這個角度看,一切都是語言!

對於這種說法,Karpathy 回覆到:當然,你可以想象說話紋理、說話分子等等。但我所觀察到的是,語言這個詞誤導了人們認爲大型語言模型(LLM)只限於文本應用。

在 Meta 從事 PyTorch 研究的 Horace He 表示:確實,深度學習框架可能在某些方面過於普遍。儘管如此,即便只是針對大型語言模型(LLM),實際運行的操作也有很大的變化。這包括新的注意力操作、混合專家模型(MoE)、不同變體的激活檢查點、不同的位置嵌入等。

在 Horace He 看來,這些技術的多樣性說明,即使是在專注於 LLM 的應用中,深度學習框架的通用性也是有其必要性的,以適應不斷髮展和變化的模型需求。

「像 LLMs、GPT 和 RLHF 這樣的術語現在變成主流,這實在有些奇怪。通常,一個領域向更廣泛的世界介紹自己時並不會這樣做(在我看來,這也是有些機構品牌推廣失敗的原因)。」有人發表了這樣的觀點。

這種情況反映了複雜技術術語的普及可能並不總能有效地代表其真實的應用和影響,有時甚至可能導致公衆理解上的困難。

還有網友認爲,「Large」這個詞用的也不好,因爲今天的「大」在未來會顯得「小」。

「 同樣的情況也適用於電話和計算機領域,看起來最初的術語往往會保持使用。」

這不由得讓我們想起 AI 領域各種命名方式,早期的名稱往往因爲先入爲主的效應而被廣泛沿用,即使隨着技術的演進,這些名稱可能已不再準確描述其功能了。

大型語言模型到底應不應該改名,你怎麼看,歡迎評論區留言。

參考鏈接:https://x.com/karpathy/status/1835024197506187617