打臉“AI滅絕倫”!研究反駁:大模型涌現能力不會威脅人類生存
大語言模型(LLM)因“涌現能力”(emergent abilities)而擁有了超出人類預期的技能,但也因此讓人類十分忌憚:操縱、欺騙人類,自主實施網絡攻擊,自動化生物研究......
然而,也有專家認爲,這種過度的擔憂會損害開源和創新,不利於人工智能(AI)行業的健康發展。當前,有關“AI 滅絕倫”的爭論愈演愈烈。
那麼,“涌現能力”真的是導致 AI 大模型威脅人類生存的罪魁禍首嗎?一項最新研究否定了這一觀點。
來自達姆施塔特工業大學和巴斯大學的研究團隊發現,GPT 等 LLM 尚無法獨立地學習或獲得新技能,這意味着它們不會對人類構成生存威脅。
他們表示,“涌現能力” 背後的真相或許比科幻電影更富有戲劇性,許多所謂的“涌現能力”,其實都是 AI 大模型在面對不熟悉的任務時,依賴於已有的數據和經驗做出的“即興表演”。
相關研究論文以 “Are Emergent Abilities in Large Language Models just In-Context Learning?” 爲題,已發表在 AI 頂會國際計算語言學年會(ACL)上。
他們通過一系列實驗驗證了 AI 大模型在不同上下文條件下的表現,結果發現:在零樣本(zero-shot)的情況下,許多大模型根本無法展現所謂的“涌現能力”,反而表現得相當一般。
他們表示,這一發現有助於理解 LLM 的實際能力和侷限性,併爲未來的模型優化提供新的方向。
智能涌現:只是“即興表演”?
AI 大模型的“涌現能力”來自哪裡?它是否真如聽起來那樣神秘,甚至令人擔憂?
爲了破解這一謎題,研究團隊選擇了 GPT、T5、Falcon 和 LLaMA 系列模型作爲研究對象,通過實驗分析了非指令微調模型(如 GPT)和指令微調模型(如 Flan-T5-large)在 22 個任務(17 個已知的涌現任務和 7 個基線任務)和不同條件下的表現。
圖|模型列表。
爲了全面評估模型能力,他們將 Exact Match Accuracy、BERTScore Accuracy 和 String Edit Distance 作爲評估指標。同時,爲了提高實驗的準確性,他們還進行了偏見控制,通過調整提示和輸出格式,確保非指令微調模型的公平性,並通過手動評估驗證模型輸出的準確性。
在實驗中,研究人員採用 zero-shot 和少樣本(few-shot)兩種設置,重點分析了 GPT 的表現能力。
圖|非指令微調 GPT 模型在零樣本下的表現。
令人驚訝的是,儘管 GPT 在之前的研究中被認爲具有涌現能力,但在 zero-shot 的情況下,這種能力表現得非常有限。
具體而言,只有兩個任務在不依賴上下文學習(ICL)的情況下展示了涌現能力,這兩個任務主要依賴形式語言能力或信息檢索,而非複雜的推理能力。由此可以得出,在沒有上下文學習的條件下,GPT 模型的涌現能力受到了極大的限制。
然而,涌現能力的來源僅僅如此嗎?研究團隊又將目光轉向了指令微調模型,提出了一個大膽的假設:指令微調並非簡單的任務適應,而是通過隱式上下文學習,激發了模型的潛在能力。
通過對比 GPT-J(非指令微調)與 Flan-T5-large(指令微調)的任務解決能力,他們發現,儘管兩者在參數規模、模型架構和預訓練數據上存在顯著差異,但在某些任務上的表現卻出奇地一致。
圖|兩個模型的表現在高於隨機基線部分有很大的重疊,這表明指令微調可以有效地獲取上下文中的能力,而非導致功能性語言能力的涌現。
這一現象表明,指令微調模型可能並不是在展示一種全新的推理能力,而是通過隱式上下文學習,巧妙地利用了已有的上下文學習能力。
進一步的實驗表明,無論是模型規模的增加,還是訓練數據的豐富,指令微調模型在 zero-shot 的情況下,仍然能夠與非指令微調模型表現出相似的任務解決能力。這一發現再次強調了指令微調與隱性上下文學習之間的緊密聯繫。
AI 威脅 人類生存:真實還是誇大?
儘管 LLM 在任務表現上展現出超凡的能力,但研究結果表明,這些能力並不意味着 AI 對人類生存構成實質性的威脅。
首先,LLM 的涌現能力主要來源於上下文學習和指令微調,這些技術jog.qaaka.com在模型的設計和訓練中是可以被預測和控制的,並未表現出完全自主發展的趨勢,也沒有產生獨立的意圖或動機。
例如,在社交智力測試(Socijog.nl14.comal IQA)中,模型能夠正確回答涉及情感和社會情境的問題,例如:“卡森醒來去上學時很興奮。他爲什麼要這樣做?”
在這一問題中,模型通過上下文學習和指令微調,能夠超越隨機just.kyoukaracg.com基線(random baseline),選擇出合理的答案。這說明模型並非在自發產生某種“智能”,而是在具體輸入和設計條件下展現出的一種高級模式識別能力。
其次,研究發現隨着 LLM 規模的擴大,這些能力表現得更加顯著,但並未脫離設計者的控制just.zzwlpf.com。通過對模型的微調,可以引導 LLM 更好地理解和執行復雜任務,而這種能力的增強並不意味着模型會產生自主意識,還不足以對人類產生威脅。
在實驗中,LLM在特定任務上的jazz.fpmails.com表現大大優於隨機基線,尤其是在需要推理和判斷的任務中。然而,這種表現依然依賴於大量訓練數據和精心設計的輸入提示,而非模型自發的智能覺醒。
這一結果進一步證實 LLM 的涌現能力是在可控範圍內發展的,雖然這一假設仍需進一步的實驗證實,但爲研究理解大模型的涌現能力提供了一java.rex-gg2013.org個全新的視角。
研究指出,雖然未來人工智能可能會在功能性語言能力上進一步發展,但其潛在危險性依然是可控的。現有證據還不能支持“AI滅絕倫”的擔憂,相反,AI 技術的發展正在逐步朝java.l-founder.com着更加安全和可控的方向前進。
不2024.sabuworld.com足與展望
儘管這項研究爲理解 LLM 的涌現能力提供了重要的見解,但研究人員也指出了該研究的侷限性ju.car-ikj.com。
當前的實驗主要集中在特定的任務和場景下,而 LLMju.znytlz.com 在更加複雜和多樣化的情境中的表現尚需進一步研究。
研究人員表示,模型的訓練數據和規模仍然是影響涌現能力的關鍵因素,未來的研究還需jog.affiliartist.com進一步探索如何優化這些因素,從而提高模型的安全性和可控性。
他們計劃進一步研究 LLM 在更加廣泛的語言和任務環境中的表現,特別是如何jog.vc-career.com通過改進上下文學習和指令微調技術來增強模型能力,且確保安全性。
此外,他們還將探討如何在不增加模型規模的情況下,通過優化訓練方法和數據選擇,實現涌現能jog.macocake.com力的最大化。
|點擊關注我 記得標just.giaoqq.com星|