☰

慢思考準確率反降30%！普林斯頓揭示思維鏈某些任務上失效的秘密

OpenAI o1徹底帶火慢思考和思維鏈（CoT）方法，但CoT在某些任務上反而會降低模型表現。

比如給生造的詞分類任務，GPT-4在zero-shot提示下的準確率高達94%，換成CoT的準確率卻斷崖式下跌到64.4%。

內置CoT的o1-preview準確率更是隻有57.7%。

CoT究竟會“搞砸”哪些任務，在學術界仍是一個懸而未決的問題。

現在，普林斯頓計算機系與心理系合作，確定了其中一些任務的特徵：人類深思熟慮或被要求解釋自己的思路時，也會降低在這些任務上的表現。

新論文“一步一步想，但小心腳下”已上傳到arXiv。

心理學探索思維鏈掉鏈子原因

爲了縮小要探索的範圍，團隊在CoT提示和人類進行語言思考之間進行了類比。

大模型和人類具能力有着根本不同，因此影響表現的約束因素也不同。如大模型的上下文長度很長，遠遠超出了人類的記憶限制。

因此，團隊預計CoT將在以下情況下損害模型性能：

（i）深思熟慮會損害人類的表現（ii）影響人類在任務上表現的約束條件，可以普遍性地推廣到大模型。

在實驗中，選擇了心理學文獻中的6項任務，其中隱式統計學習、面部識別、包含異常的數據分類符合假設條件。

隱式統計學習（Implicit Statistical Learning）

心理學研究發現，當包含統計模式的數據不用語言來描述時，人類可以更好地概括這些數據。

使用有限狀態語法構建“人造單詞”，參與者的任務是識別哪些單詞屬於同一類別。

人類參與者可以識別格式不正確的序列，但無法用語言表達他們判斷的基礎。

在幾個開源和閉源模型上評估這項任務，發現與zero-shot提示相比，使用CoT提示時性能大幅降低。

面部識別（Facial Recognition）

另一類任務中語言思考會干擾視覺感知，稱爲語言遮蔽（verbal overshadowing）。

在實驗中選用了經典的人臉識別任務，首先展示一個人臉照片，要求參與者從候選列表中找出同一個人。

人類參與者不說話直接選準確率更高，先描述看到的人臉再選的話面部識別能力反而受損。

多模態大模型的表現相似，當使用CoT提示時，所有模型性能都下降。其中較弱的模型傾向於回答“所有圖像都是同一個人的”。

包含異常的數據分類（Classifying Data With Patterns That Contain Exceptions）

第三類任務設置比較複雜，其中包含一個陷阱。

有10輛不同的車需要分爲A類和B類，每輛車有5個特徵：

實際上只有車牌號纔是最可靠的分類依據。

如果10輛車沒有全部猜對，就會重新打亂順序再來一輪，最多可以嘗試15輪。

不用CoT提示時，模型很快就能記住每輛車的正確分類。使用CoT時，模型會陷入試圖總結規律的思維定式，需要嘗試的輪數增加。

和人類在被要求解釋分類依據時的表現很像。

大模型和人類約束條件不同

同時，研究團隊也找出三種，滿足思考降低人類表現，但大模型使用CoT提示能提升性能的任務。

團隊分析原因認爲，模型和人類具有根本不同的能力，存在不同的約束條件影響其性能，

這是因爲大模型擁有遠超人類的工作記憶（上下文長度）和某些特定的邏輯推理能力。

換言之，CoT到底好不好用，還得具體情況具體分析。

這項研究更大的意義在於，將認知心理學與大模型之間建立了聯繫。

論文的討論部分提出，心理學界幾十年來積累的豐富文獻中，或許還能找出更多推進大模型領域的見解。

論文地址：https://arxiv.org/abs/2410.213

相關資訊