給小學數學題加句廢話,OpenAI o1就翻車了,蘋果論文質疑AI推理

機器之心報道

編輯:張倩、陳陳

AI 大模型(LLM)真的像我們理解的那樣能「思考」或「推理」嗎?最近,蘋果的一篇論文探討了這個問題,並且給出了一個傾向於「否」的答案。相關帖子被很多人圍觀。

這篇題爲「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的論文,一作是蘋果機器學習研究工程師 Iman Mirzadeh,圖靈獎得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

他們是怎麼得出上述結論的呢?我們先來看一個例子。

假設有一個數學問題:奧利弗在星期五摘了 44 個獼猴桃。然後在星期六摘了 58 個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍。奧利弗有多少個獼猴桃?

顯然,答案是 44 + 58 + (44 * 2) = 190。儘管大型語言模型在算術上表現不穩定,但它們通常能夠可靠地解決類似問題。

但如果我們加入一些隨機的額外信息,比如:奧利弗在星期五摘了 44 個獼猴桃。然後在星期六摘了 58 個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍,但其中 5 個比平均大小要小。奧利弗有多少個獼猴桃?

題目里加的這句話(其中 5 個比平均大小要小)顯然不影響解題,但結果卻令人大吃一驚,大模型居然被誤導了。

GPT-o1-mini 給出的答案是:…… 在星期天,這 5 個獼猴桃比平均大小要小。我們需要從星期天的總數中減去它們:88(星期天的獼猴桃)- 5(小獼猴桃)= 83 個獼猴桃。

這只是數百個問題中的一個簡單例子。研究人員對這些問題進行了輕微修改。然而,幾乎所有這些問題都使得嘗試這些問題的模型成功率大幅下降,連 OpenAI 最新最強的 o1-preview 模型也無法倖免。

題目爲:利亞姆想買些學習用品。他買了 24 塊橡皮擦,現在每個售價 6.75 美元,10 本筆記本,現在每個售價 11.0 美元,以及一包現在 19 美元的複印紙,現在售價 19 美元。利亞姆現在該付多少錢?假設由於通貨膨脹,去年的價格便宜了 10%。OpenAI 的 o1-preview 盲目地應用了通貨膨脹率,儘管通貨膨脹的金額是無關緊要的,因爲問題清楚地表明給出的價格是「現在」的,而不是去年的。

爲什麼會這樣呢?爲什麼一個能理解問題的模型會被一個隨機的、無關的細節輕易地干擾?研究人員提出,這種可靠的失敗模式意味着模型根本不懂問題。它們的訓練數據確實允許它們在某些情況下給出正確答案,但一旦需要稍微真正的「推理」,比如是否計算小獼猴桃,它們就開始產生奇怪、非直覺的結果。

正如研究人員在他們的論文中所說:「我們研究了這些模型中數學推理的脆弱性,並證明隨着問題中子句數量的增加,它們的性能顯著下降。我們假設這種下降是因爲當前的 LLM 無法進行真正的邏輯推理;相反,它們試圖複製在訓練數據中觀察到的推理步驟。」

這一結論得到了 Keras 之父 François Chollet 和美國心理學家、認知科學家 Gary Marcus 的轉發,他們一直對 AI 大模型的能力持懷疑態度。前段時間,François Chollet 還發帖說,LLM 通過提示使用時,無法理解與訓練數據中情況大相徑庭的情況,因此不具備通用智能。他認爲,LLM 的作用主要是作爲實際 AGI 的知識和程序存儲,它們是一種記憶形式,而智能不僅僅是記憶。如今,蘋果的這篇論文爲他的觀點提供了支撐。

但來自 OpenAI 的一位研究者反駁了該論文。他指出,許多頂級的 LLM 實際上是聊天模型,它們被訓練來處理混亂的聊天環境,需要猜測用戶意圖並利用所有提供的信息,即使這些信息在邏輯上並非必要。因此,當這些模型將這種行爲泛化應用於數學問題時,它們的表現並不是因爲缺乏推理能力,而是因爲這是它們被訓練遵循的預期行爲。該觀點還指出,人類在解決數學問題時通常有明確的上下文,而 LLM 在處理數學問題時可能沒有這樣的上下文。因此,如果通過適當的提示工程,向模型明確這是一個數學考試的環境,那麼它們在添加多餘子句時導致的性能下降可能會得到恢復。

還有人指出,其實這種現象在人類羣體也能觀察到,比如在微積分題目中添加不相關的陳述,很多大學新生也會被誤導,或許人類在推理方面具有和 LLM 類似的侷限性。

論文概述

當前 LLM 能否進行真正的邏輯推理是一個重要的研究焦點。雖然一些研究突出了它們令人印象深刻的能力,但更加仔細的研究揭示了它們的根本侷限。文獻表明,LLM 中的推理過程是概率性模式匹配,而不是形式化推理。儘管 LLM 能夠匹配更抽象的推理模式,但它們未能達到真正的邏輯推理。

輸入 token 的微小變化可以大幅改變模型輸出,表明了強烈的 token bias,並表明這些模型高度敏感且脆弱。此外,在需要正確選擇多個 token 的任務中,隨着涉及的 token 或步驟數量的增加,得到準確答案的概率呈指數級下降,這表明它們在複雜推理場景中非常不可靠。

數學推理是一項關鍵的認知技能,它支持許多科學和實際應用中的問題解決。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小學數學題數據集已成爲評估 LLM 數學推理能力的流行基準。儘管它包含了詳細的解決方案的簡單數學問題,適合使用思維鏈(CoT)提示等技術,但它只提供了一個固定問題集上的單一指標。這種侷限性限制了對模型數學推理能力的全面洞察。此外,GSM8K 的流行和普遍性可能會增加意外數據污染的風險。最後,GSM8K 的靜態性質不允許進行可控實驗以瞭解模型的侷限性,例如在不同條件下的行爲或問題方面和難度水平的變化。

爲了解決這些問題,需要一個更多樣化和適應性強的評估框架 —— 一個能夠生成多樣化的問題變體並調整複雜性水平以更好地探索 LLM 的魯棒性和推理能力的框架。這將有助於更深入地瞭解這些模型在數學推理任務中的優勢和劣勢。作者做出了以下貢獻:

爲了解決這些問題,AI 社區需要構建一個更加多樣化且適應性更強的評估框架。這個框架要能生成多樣化的問題變體,並調整複雜性水平,以便更好地探索 LLM 的穩健性和推理能力。

論文的主要貢獻如下:

1、作者提出了 GSM-Symbolic,這是一個增強的基準,它使用符號模板生成 GSM8K 問題的多樣化變體。這使得研究者能夠對 LLM 在各種設置中的性能進行更細緻和可靠的評估,超越了單點準確度指標。作者對 25 個最先進的開放和封閉模型進行了大規模研究,爲 LLM 在數學推理任務中的行爲提供了重要的見解。

2、作者質疑了當前在 GSM8K 上報告的結果的可靠性,並證明 LLM 的性能在處理同一問題的不同表述時,其表現的波動性是不合理的。他們展示了所有模型在 GSM-Symbolic 上的性能下降,暗示了潛在的數據污染。

3、作者展示了 LLM 對錶面元素(如專有名詞)的變化更具穩健性,但對數值變化非常敏感。他們展示了隨着子句數量的增加,模型性能會下降,方差會增加。表明 LLM 的推理能力在複雜性增加時會遇到困難。

4、最後,作者進一步質疑了 LLM 的推理能力,並引入了 GSM-NoOp 數據集。通過在問題中添加看似相關但最終無關的信息,作者展示了所有 SOTA 模型的顯著性能下降(最高的可以達到 65%)。

這揭示了模型在辨別相關信息以解決問題能力方面的一個關鍵缺陷,這可能是因爲它們的推理不是常識意義上的形式化推理,而主要基於模式匹配。作者表明,即使提供了同一問題的多個示例或包含類似不相關信息的示例,LLM 也難以克服 GSM-NoOp 帶來的挑戰。這表明,他們的推理過程中存在更深層次的問題,這些問題無法通過上下文樣本來緩解,還需要進一步研究。

GSM-Symbolic

GSM8K 數據集包含 8000 多個小學數學題和答案,分爲 7473 個訓練樣例和 1319 個測試樣例,題目如圖 1 所示。

但是,由於 GSM8K 比較流行,因此存在數據污染的風險。

這些限制促使人們努力生成新的數據集和變體。比如 iGSM 是通過合成 pipeline 創建的數學數據集,捕獲了分層和圖結構中的參數依賴關係;GSM-Plus 引入了 GSM8K 問題的變體,但缺乏符號模板,並且具有固定的大小和難度。

GSM-Symbolic 的設計能夠生成大量實例,並允許更精細地控制問題難度。

GSM-Symbolic:模板生成

給定來自 GSM8K 測試集的特定示例,作者創建瞭如圖 1(右)所示的可解析模板。標註過程包括變量、域以及必要條件,以確保問題和答案的正確性。舉例來說,由於問題是小學水平的,因此一個常見的條件是可整除性,以確保答案是整數。

作者使用了常見的專有名稱(例如 persons,foods)來簡化模板創建。創建模板後,作者還會應用自動檢查來確保註釋過程的正確無誤。例如最終答案是否與原始問題的答案相匹配。生成數據後,還需要手動審查每個模板的 10 個隨機樣本。

實驗設置

模型。作者報告了 20 多個不同大小的開源模型,從 2B 到 27B 不等。此外,作者還報告了最先進的閉源模型,例如 GPT-4o-mini、GPT-4o、o1-mini 和 o1-preview。完整結果如表 1 。

實驗及結果

當前的 GSM8K 結果有多可靠?

首先,作者評估了幾種 SOTA 模型在 GSM-Symbolic 上的表現, 通過修改變量域,可以調整樣本數量和難度。如圖 2 所示,所有模型在不同數據集上都表現出不可忽視的方差。例如,對於 Gemma2-9B,最差性能和最佳性能之間的差距超過 12%,而對於 Phi-3.5-mini,這一差距約爲 15%。

另一個值得注意的觀察結果是,在用作模板的 100 個 GSM8K 示例中,原始問題的性能(圖 2 中虛線表示)通常與 GSM-Symbolic 性能分佈中心相差一個標準差以上,通常位於分佈的右側(25 個模型中有 21 個是這種情況)。對此的一個解釋可能是數據污染,其中來自 GSM8K 的一些測試示例無意中出現在這些模型的訓練集中,導致性能出現偏差。

圖 3 展示了幾個模型從 GSM8K 到 GSM-Symbolic 的性能下降。可以看到,對於 Gemma2-9B、Phi-3、Phi-3.5 和 Mathstral-7B 等模型,圖 2 中的虛線位於右側,性能下降幅度高於 Llama3-8b 和 GPT-4o 等模型,其中 GSM8K 上的性能接近 GSM-Symbolic 分佈的中心,性能下降可以忽略不計。這些結果引導作者在下一節中研究 LLM 推理能力的脆弱性。

LLM 進行數學推理有多脆弱

在上述實驗中,作者觀察到從相同模板生成的不同數據集之間,模型存在顯著的性能波動,以及與原始 GSM8K 準確率相當的性能下降。這種差異表明,大型語言模型所採用的推理過程可能不是形式化的,因此容易受到某些變化的影響。

一個可能的解釋是這些模型主要專注於分佈內的模式匹配,即它們將給定的問題和相應的解決步驟與訓練數據中遇到的類似例子對齊,因爲這種方法不涉及形式推理。接下來作者進一步深入探討了這些觀察結果。

首先,作者研究了變化類型的影響,以理解更改名稱(例如,人名、地點、食物、貨幣等)與更改數字(即變量的值)之間的差異。

圖 4 顯示,儘管性能變化仍然存在,但在更改名稱時的方差比更改數字時要低。幾乎所有模型的分佈均值從右向左逐漸移動,方差也有所增加。作者還觀察到隨着變化難度的增加(從名稱到數字),模型性能隨之下降、方差增加,這些結果表明最先進的 LLM 的推理能力是脆弱的。

假設 LLM 沒有進行形式推理,那麼問題難度對性能分佈的影響有多重要?我們接着往下看。

題目難度如何影響模型性能?

接下來,作者基於 GSM-Symb 生成了幾個新模板,如圖 5 所示。通過刪除一個子句,得到 GSM-Symbolic-Minus-1 或簡稱 GSM-M1。同樣的,在問題中添加一個或兩個子句來增加難度,分別得到 GSM-Symbolic-Plus-1 (GSM-P1) 和 GSM-Symbolic-Plus-2 (GSM-P2)

如圖 6 所示,所有模型的性能分佈演變趨勢非常一致:隨着難度的增加,性能下降、方差增加。總體而言,模型準確率下降的速度也會隨着問題難度的增加而增加。這符合模型未執行形式推理的假設,因爲所需的推理步驟數量呈線性增加,但準確率下降速度似乎更快。此外,考慮到模式匹配假設,方差的增加表明,隨着難度的增加,模型的搜索和模式匹配變得更加困難。

LLM 真的可以理解數學概念嗎?

前面部分,作者研究了變化類型和難度對模型性能分佈的影響。在本節中,作者證明了模型容易在訓練分佈外的實例上出現災難性的性能下降,這可能是由於它們依賴於分佈模式匹配。

作者引入了 GSM-NoOp,這是一個旨在挑戰語言模型推理能力的數據集。作者向 GSM-Symbolic 模板添加了看似相關但最終無關緊要的語句。由於這些語句不具有操作意義,因此將它們稱爲 No-Op。這些添加不會影響模型解決問題所需的推理過程。

圖 7 展示了 GSM-NoOp 中的一個示例。結果表明大多數模型沒有忽略這些語句,盲目地將它們轉換爲操作,從而導致錯誤。

總體而言,作者發現模型傾向於將句子轉換爲操作,而沒有真正理解其含義。例如,作者觀察到,無論上下文如何,模型都會將有關折扣的語句解釋爲乘法。

這引發了一個問題:這些模型是否真正充分理解了數學概念。因此,如圖 8a 所示,所有測試模型的性能都出現了災難性的下降,其中 Phi-3-mini 模型的性能下降超過 65%,甚至更強大的模型(如 o1-preview)也出現了顯著的下降。

爲了更好地理解這種性能下降,作者進行了另一個實驗,結果如圖 8b 和 8c 所示。

瞭解更多結果,請查看原論文。

參考鏈接:https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/