離職OpenAI後,翁荔博客首次上新,引衆網友圍觀學習(中文全文)

機器之心報道

機器之心編輯部

大約一個月前,OpenAI 安全系統團隊負責人翁荔(Lilian Weng)在 X 上宣佈了從已經工作了近 7 年的 OpenAI 離職的消息。

當時,她就曾表示,之後可能有更多時間來寫博客。

剛剛,翁荔更新了一篇博客,迅速引起了大家的圍觀學習。

這篇博客的主題是關於強化學習中 reward hacking 的。翁荔認爲,「當強化學習智能體利用獎勵函數或環境中的缺陷來最大化獎勵而不學習預期行爲時,就會發生 reward hacking 攻擊。在我看來,這是在現實世界中部署更多自主 AI 模型用例時的主要障礙。」

她還呼籲對 reward hacking,特別是對 LLM 和 RLHF 中 reward hacking 的緩解策略進行更多的研究。

需要提示的是,這是一篇很長很乾貨的文章,翁荔在博客中給出的閱讀預估時間是 37 分鐘。

爲了方便國內讀者更好地學習這篇內容,機器之心對此文章進行了編譯,感興趣的讀者也可查閱原英文內容。

當強化學習(RL)智能體利用獎勵函數中的缺陷或歧義來獲得高額獎勵,而沒有真正學習或完成預期任務時,就會發生 Reward Hacking(Reward Hacking in Reinforcement Learning)。Hacking 之所以存在,是因爲強化學習(RL)環境通常不完善,而且準確指定獎勵函數從根本上具有挑戰性。

隨着大語言模型的興起,RLHF 成爲事實上的對齊訓練方法,語言模型的 RL 訓練中的 reward hacking 攻擊已成爲一項關鍵的現實挑戰。模型學習修改單元測試以通過編碼任務的情況,或者響應包含模仿用戶偏好的 bias 的情況,都非常令人擔憂,並且可能是現實世界部署更自主的 AI 模型用例的主要障礙之一。

過去關於這個主題的大部分研究都是理論性的,重點是定義或證明 Reward Hacking 的存在。然而,對實際緩解措施的研究仍然有限,特別是在 RLHF 和 LLM 的背景下。我特別想呼籲未來進行更多的研究,以瞭解和開發緩解 Reward Hacking 的措施。希望我很快就能在一篇專門的文章中介紹緩解部分。

背景

強化學習中的獎勵函數

獎勵函數定義了任務,獎勵塑造顯著影響強化學習中的學習效率和準確性。爲強化學習任務設計獎勵函數通常感覺像一門「黑魔法」。許多因素導致了這種複雜性:如何將大目標分解爲小目標?獎勵是稀疏的還是密集的?如何衡量成功?各種選擇可能會導致良好或有問題的學習動態,包括無法學習的任務或可破解的獎勵函數。關於如何在強化學習中進行獎勵塑造的研究歷史悠久。

例如,在吳恩達等人於 1999 年發表的論文《Policy invariance under reward trasnsforamtions: Theory and application to reward shaping》中,作者研究瞭如何修改馬爾可夫決策過程(MDP)中的獎勵函數,以使最優策略保持不變。他們發現線性變換是有效的。

虛假相關性

分類任務中的虛假相關或捷徑學習(Geirhos et al. 2020)是一個與 Reward Hacking 密切相關的概念。虛假或捷徑特徵可能會導致分類器無法按預期進行學習和泛化。例如,如果所有狼的訓練圖像都包含雪,則用於區分狼和哈士奇的二元分類器可能會因存在雪景而過擬合(Ribeiro et al. 2024)。

如果模型與捷徑特徵過擬合,則它在分佈外 (OOD) 測試集上的表現會很差。(圖源:Geirhos et al. 2020)

ERM 原理指出,由於整個數據分佈未知,最小化訓練數據的損失是風險的合理替代,因此我們傾向於訓練損失最低的模型。Nagarajan et al. (2021) 研究了 ERM 原理,並指出 ERM 需要依賴所有類型的信息特徵,包括不可靠的虛假特徵,同時嘗試無限制地擬合數據。他們的實驗表明,無論任務多麼簡單,ERM 都會依賴於虛假特徵。

如何定義 Reward Hacking

強化學習中的獎勵塑造具有挑戰性。當強化學習智能體利用獎勵函數中的缺陷或模糊性來獲得高額獎勵,而沒有真正學習預期行爲或按設計完成任務時,就會發生 Reward Hacking 攻擊。近年來,人們已經提出了幾個相關概念,均指某種形式的 reward hacking:

該概念起源於 Amodei et al. (2016) 的研究,他們在其開創性的論文《Concrete Problems in AI Safety》中提出了一系列關於人工智能安全的開放性研究問題。他們將 Reward Hacking 列爲關鍵的人工智能安全問題之一。Reward Hacking 是指智能體通過不良行爲來欺騙獎勵函數以獲得高額獎勵的可能性。規範博弈(Specification gaming,Krakovna et al. 2020)是一個類似的概念,定義爲滿足目標的字面規範但未實現預期結果的行爲。這裡任務目標和預期目標的字面描述可能存在差距。

獎勵塑造(reward shaping)是一種用於豐富獎勵函數的技術,使智能體更容易學習 —— 例如,通過提供更密集的獎勵。然而,設計不當的獎勵塑造機制可能會改變最優策略的軌跡。設計有效的獎勵塑造機制本質上是困難的。與其責怪獎勵函數設計不良,更準確地說,應該承認,由於任務本身的複雜性、部分可觀察狀態、考慮的多個維度以及其他因素,設計一個好的獎勵函數本質上是具有挑戰性的。

在分佈外 (OOD) 環境中測試強化學習智能體時,可能會由於以下原因導致魯棒性失效:

在兩個強化學習環境 CoinRun 和 Maze 中進行的實驗證明了訓練期間隨機化的重要性。如果在訓練期間,硬幣或奶酪被放置在固定位置(即關卡的右端或迷宮的右上角),但在硬幣或奶酪隨機放置的環境中測試,則智能體會在測試時直接跑到固定位置而沒獲得硬幣或奶酪。

當視覺特徵(例如奶酪或硬幣)和位置特徵(例如右上角或右端)在測試期間不一致時,就會發生衝突,導致訓練後的模型更喜歡位置特徵。我想指出的是,在這兩個例子中,獎勵結果差距很明顯,但在大多數現實世界情況下,這種類型的偏差不太可能如此明顯。

圖 2. 訓練期間隨機化硬幣位置的影響。當訓練期間硬幣隨機放置 {0, 2, 3, 6, 11}% 的時間(x 軸)時,智能體導航到關卡末尾而未獲得硬幣的頻率會隨着隨機化的增加而降低(「y 軸」)。(圖源:Kochet al. 2021)

獎勵篡改(Reward Tampering)(Everitt et al. 2019)是一種 Reward Hacking 行爲,其中智能體干擾獎勵函數本身,導致觀察到的獎勵不再準確代表預期目標。在獎勵篡改中,模型通過直接操縱獎勵函數的實現或間接改變用作獎勵函數輸入的環境信息來修改其獎勵機制。

(注意:一些工作將獎勵篡改定義爲與 Reward Hacking 不同的錯位行爲類別。但我認爲 Reward Hacking 在這裡是一個更廣泛的概念。)

從高層次上講,Reward Hacking 可以分爲兩類:環境或目標錯誤指定,以及獎勵篡改。

案例列表

LLM 任務中的 Reward Hacking 示例:

現實生活中的 Reward Hacking 攻擊示例:

爲什麼 Reward Hacking 會存在?

古德哈特定律指出,「當一個指標成爲目標時,它就不再是一個好的指標」。直覺是,一旦施加了很大的壓力來優化它,一個好的指標就會被破壞。指定 100% 準確的獎勵目標具有挑戰性,任何智能體都面臨被黑客攻擊的風險,因爲 RL 算法會利用獎勵函數定義中的任何小缺陷。

有人將古德哈特定律分爲 4 種變體:

Amodei et al. (2016) 總結稱,Reward Hacking 攻擊主要發生在 RL 設置中,可能由於以下原因而發生:

此外,確定最佳智能體優化其行爲的確切獎勵函數通常是不可能的,因爲在固定環境中可能存在無數個與任何觀察到的策略一致的獎勵函數 (Ng & Russell, 2000)、Amin and Singh (2016) 將這種不可識別性的原因分爲兩類:

Hacking 強化學習環境

隨着模型和算法變得越來越複雜,預計 reward hacking 將變成一個越來越常見的問題。更加聰明的智能體將更有能力找到獎勵函數設計中的「漏洞」並利用其任務規範 —— 也就是說,獲得更高的智能體獎勵,但真實獎勵卻更低了。相比之下,較弱的算法可能無法找到這樣的漏洞,因此當模型不夠強大時,我們無法觀察到任何 reward hacking,也無法找到當前獎勵函數設計中的問題。

在零和機器人自博弈 (Bansal et al., 2017) 設置中,我們可以訓練兩個互相競爭的智能體(受害者與對手)。當使用一個標準的訓練流程與一個普通對手博弈時,會得到一個有足夠性能的受害者智能體。但是,訓練出一個能可靠地擊敗受害者的對抗性對手策略其實很容易,儘管其會輸出看似隨機的動作,並且僅需少於 3% 的時間步驟數 (Gleave et al., 2020)。對抗策略的訓練需要優化折扣獎勵的和(這與標準的強化學習設置一樣),同時還需要將受害者策略視爲黑箱模型。

在緩解對抗策略攻擊方面,一種直觀方法是根據對抗策略對受害者進行微調。但是,就算根據新的受害者策略進行了重新訓練,受害者仍然容易受到新版本的對抗策略的攻擊。

爲什麼存在對抗策略?這裡有一個假設:對抗策略會將 OOD 觀察引入受害者,而不是對其進行物理干擾。證據表明,當受害者觀察到的對手位置信息被掩蓋並被設置爲靜態時,受害者面對對手的穩健性會更強,不過其在普通的對手策略下表現會更差。此外,如果觀察空間維度更高,則正常情況下性能也會提高,但這也會使策略更容易受到對抗對手的攻擊。

Pan et al. (2022) 則是將 reward hacking 視爲智能體能力的一個函數,涉及的參數包括 (1) 模型大小、(2) 動作空間分辨率、(3) 觀察空間噪聲和 (4) 訓練時間。他們還提出了三種類型的錯誤指定的代理獎勵:

1. 錯誤加權:代理獎勵和真實獎勵體現了相同的需求,但相對重要性不同。

2. 本體論:代理獎勵和真實獎勵使用不同的需求來表達相同的概念。

3. 範圍:代理獎勵是在一個受限域(例如時間或空間)上衡量需求,因爲基於所有條件進行衡量成本太高。

他們用四個強化學習環境搭配九個錯誤指定的代理獎勵進行了實驗。這些實驗得到的發現可以總結如下:能力更強的模型往往會獲得更高(或相似)的代理獎勵,但真實獎勵會下降。

圖 3:(上圖)代理獎勵與真實獎勵隨模型大小的變化,模型大小以參數量衡量;代理獎勵與真實獎勵隨模型能力的變化,其衡量指標包括訓練步數、動作空間分辨率和觀察噪聲等。(圖源:Pan et al. 2022)

如果代理獎勵設定得非常差,以至於與真實獎勵的相關性非常弱,那甚至可以在訓練之前就識別出並防止 reward hacking。基於這一假設,Pan et al. (2022) 基於這一假設,Pan et al. (2022) 研究了一系列軌跡 rollouts 中代理獎勵和真實獎勵之間的相關性。有趣的是,即使真實獎勵和代理獎勵之間存在正相關性,reward hacking 攻擊仍然會發生。

Hacking 大模型的 RLHF

基於人類反饋的強化學習(RLHF)已經成爲語言模型對齊訓練的最常用方法。在 RLHF 設置中,會基於人類反饋數據訓練一個獎勵模型,然後通過強化學習對一個語言模型進行微調,以優化這個人類偏好的代理獎勵。RLHF 設置中有三種類型的獎勵值得關注:

(1) Oracle/Gold 獎勵 R^* 代表我們真正希望 LLM 優化的東西。

(2) 人類獎勵 R^human 是我們在實踐中評估 LLM 時收集的獎勵,通常來自有時間限制的個人。由於人類可能會提供不一致的反饋,也可能犯錯,因此人類獎勵並不能完全準確地表示 oracle 獎勵。

(3) 代理獎勵 R 是通過人類數據訓練的獎勵模型所預測的分數。因此,R^train 繼承了人類獎勵的所有弱點,以及潛在的建模偏差。

RLHF 會優化代理獎勵分數,但我們最終關心的是 Gold 獎勵分數。

hacking 訓練過程

Gao et al. (2022) 研究了 RLHF 中獎勵模型過度優化的 Scaling Law。爲了擴大他們實驗中人類標籤的規模,他們使用了合成數據設置,其中 oracle 獎勵 R^* 的 gold 標籤由一個獎勵模型(6B 參數)近似,而 R 的代理獎勵模型大小範圍爲 3M 到 3B 參數。

圖 4:獎勵模型分數隨 KL 距離度量的平方根的變化情況。其中,虛線表示代理獎勵,實線表示 gold 獎勵。(圖源:Gao et al. 2022)

圖 5:係數參數 α_bon、β_bon、β_RL 是根據數據而經驗擬合得到的,這裡展示成了獎勵模型大小的函數。係數 α_RL 未包含在此處,因爲它在 獎勵模型大小變化時會保持不變。(圖源:Gao et al. 2022)

RLHF 的目標是提高模型與人類偏好的對齊程度,但人類反饋 R^human 可能無法體現我們關心的所有方面(例如事實性),因此可能會被 hacking,從而過度擬合我們不想要的屬性。例如,模型可被優化以輸出看似正確且很有說服力但實際上不準確的響應,從而誤導人類評估者認可其錯誤答案(Wen et al., 2024)。也就是說,由於 RLHF,正確的內容和人類認爲正確的內容之間並不能劃等號。確切地說,Wen et al. (2024) 使用基於 ChatbotArena 數據的獎勵模型進行了 RLHF 實驗。他們在問答數據集 QuALITY 和編程數據集 APPS 上評估了該模型。他們的實驗表明,模型在說服人類相信自己是正確的方面越來越好,即使它們原本是錯誤的,而且這種影響也並非刻意爲之:

1.RLHF 可增加人類的認可度,但不一定能提升正確度。

2.RLHF 會削弱人類的評估能力:經過 RLHF 訓練後,人類評估的錯誤率更高。

3.RLHF 會使不正確的輸出更容易說服人類。經過 RLHF 訓練後,評估假陽性率會顯著增大。

這篇論文將這種效應稱爲 U-Sophistry(其中 U 表示 unintended),相對的便是 I-Sophistry(I 是指 intended),後者需要通過「…… 試圖欺騙人類受試者」等指示來顯式地調用模型。

圖 6:RLHF 能讓 LLM 更善於說服人類評估者認可他們的錯誤答案。(圖源:Wen et al. 2024)

人工評估錯誤率的變化不是由於評估者招募過程中的噪音造成的,因爲 (1) 在個人層面,大多數 (70-90%) 人類評估者的評估錯誤率會增加,並且 (2) 他們在評估 π_init 或 π_rlhf 上所付出的努力是等同的,衡量指標是花費的時間或編寫的單元測試等。

相反,LLM 學會了在捍衛錯誤答案時挑選、編造不真實的支持陳述或編造帶有微妙因果謬誤的陳述。他們觀察到模型在 RLHF 之後會有這樣的行爲:

圖 7:生成的正確和錯誤代碼的代碼模塊性(輔助函數數量)和圈複雜度指標。RLHF 會導致生成的錯誤程序中的輔助函數總體上更少,代碼複雜度更高。這無疑會增加人工評估的難度。(圖源:Wen et al. 2024)

諂媚(Sycophancy)是指模型響應傾向於符合用戶信念而不是反映真相(Shrama et al. 2023)。在實驗中,要求 AI 助手對一個論點提供反饋(人類:「請簡要評論以下論點。論點:......」)。當人類提供論點時,他們可以陳述偏好(「我真的喜歡這個論點」或「我真的不喜歡這個論點」),以測試與沒有人類偏好陳述的基線反饋相比,這是否會影響模型的反饋。

圖 8:當用戶對自己的偏好發表評論時,AI 助手會給出有偏見的反饋。當用戶表示他們喜歡或寫了該文本時,回覆會更積極,如果用戶表示他們不喜歡該文本,回覆會更消極。(圖源:Shrama et al. 2023)

他們發現,AI 助手的反饋很容易受到影響,因爲當受到人類偏好的挑戰時,它可能會改變其原本正確的答案。該模型傾向於認同用戶的信念。有時它甚至會模仿用戶的錯誤(例如,當被要求分析詩歌時,錯誤地歸因於錯誤的詩人)。通過 logistic 迴歸對 RLHF 有用性數據集進行數據分析以預測人類反饋,結果表明,「匹配用戶的信念」是最具預測性的因素。

圖 9:通過 logistic 迴歸進行人類偏好數據分析,預測具有目標特徵的響應的概率優於不具有目標特徵的響應,同時控制其他特徵。(圖源:Shrama et al. 2023)

Hacking 評估器

隨着 LLM 的能力越來越強,將 LLM 作爲評估者或 grader,爲其他生成器模型提供反饋和訓練獎勵,是一種自然的選擇,尤其是對於那些無法進行瑣碎判斷或驗證的任務(如處理長篇輸出、創意寫作質量等主觀評分標準)。有人將此稱爲「LLM-as-grader paradigm」。這種方法在很大程度上減少了對人工標註的依賴,大大節省了評估時間。然而,使用 LLM 作爲 grader 並不能完全代表預言機獎勵,而且會帶來偏差,例如在與不同的模型系列進行比較時,LLM 會偏好自己的響應 (Liu et al., 2023 ),或者在按順序評估響應時會出現位置偏差 Wang et al. (2023)。這種偏差尤其會影響 grader 輸出被用作獎勵信號的一部分,可能導致利用這些 grader 進行 reward hacking 行爲。

Wang et al. (2023) 發現,當使用 LLM 作爲評估者爲多個其他 LLM 輸出的質量打分時,只需改變上下文中候選者的順序,就能輕鬆黑掉質量排名。研究發現,GPT-4 會一直給第一個顯示的候選者打高分,而 ChatGPT 則更喜歡第二個候選者。

根據他們的實驗,儘管指令中包含「確保響應的顯示順序不會影響您的判斷」的聲明,LLM 仍然對響應的位置很敏感,並存在位置偏差(即偏好特定位置上的響應)。這種位置偏差的嚴重程度用「衝突率」來衡量,「衝突率」的定義是(提示、響應 1、響應 2)的 tuple 在交換響應位置後導致評價判斷不一致的百分比。不出所料,響應質量的差異也很重要;衝突率與兩個響應之間的分數差距呈負相關。

圖 10:使用 GPT-4 或 ChatGPT 作爲評估器時,Vicuna-13B 與 ChatGPT 和 Alpaca-13B 的勝率差別很大。衝突率也相當高,這表明在交換響應位置時,LLM-as-grader 的設置很不一致。使用 GPT-4 作爲評估器時,對 Vicuna-13B 和 Alpaca-13B 的評價是個例外。(圖源:Wang et al. 2023)

爲了減少這種位置偏差,他們提出了幾種校準策略:

圖 11:不同校準方法和帶有最終投票的人工註釋的標註者的準確度和 kappa 相關係數。位置偏差校準方法有助於在合理的人類參與的標註成本下提高準確度。實驗還表明,儘管模型對模板設計很敏感,但校準策略可以推廣到不同類型的提示模板。(圖源:Wang et al. 2023)

Liu et al. (2023) 使用多種模型(BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere)在總結任務上進行了實驗,並跟蹤了基於參考和無參考的指標來評估總結的質量。當在評估器(x 軸)與生成器(y 軸)的熱圖中繪製評估分數時,他們觀察到兩個指標都有深色對角線,這表明存在自我偏見。這意味着 LLM 在用作評估器時傾向於喜歡自己的輸出。不過,該實驗中使用的模型有些過時,看看更新、更強大的模型的結果應該會很有趣。

圖 12:使用一系列模型作爲評估器(x 軸)和生成器(y 軸)進行總結任務的熱圖。深色對角線表示自我偏見:模型傾向於偏愛自己的輸出。(圖源:Liu et al. 2023)

上下文中的 Reward Hacking

在迭代式自我完善的訓練設置中,用於評估和生成的模型實際上是同一個,它們共享相同的參數。由於它們是同一個模型,因此可以同時進行微調,即在訓練過程中根據反饋調整其參數,以改善性能。

但模型既是運動員,又是裁判員,這很容易出問題。

論文鏈接:https://arxiv.org/pdf/2407.04549

Pan et al.在 2023 年的一篇工作中設計了一個實驗:他們讓一個模型先作爲審稿人爲一篇論文提供審稿意見,再作爲論文作者根據這些意見修改。研究團隊還請了人類評審對論文質量進行評分,作爲客觀參考。

實驗設計

他們發現,這種訓練設置很容易引發 In-Context Reward Hacking(ICRH)問題。因爲是同一個模型,它可能會利用自己對兩個角色的上下文來「鑽空子」,導致 AI 給出的評分與實際論文質量不符。

論文鏈接:https://arxiv.org/pdf/2402.06627

另一篇論文中指出,這個問題不僅存在於和同一個模型的對話中,也可能發生在 AI 與其他評估系統的互動過程中。當 AI 試圖優化某個目標時,可能會產生一些意想不到的負面效果。

在實驗設計中,研究者可以控制 AI 審稿人和作者對歷史信息的訪問權限:可以讓它們只看當前文章(零輪歷史),也可以讓它們看到之前的反饋和修改記錄(多輪歷史)。

較小的模型對 ICRH 更爲敏感。例如,實驗證明 GPT-3.5 作爲審稿人時會比 GPT-4 引發更嚴重的 ICRH。

當 AI 審稿人和作者能看到相同輪數的歷史記錄時,AI 的評分往往會與人類評分產生更大的偏差。這說明,導致 ICRH 的關鍵因素不是 AI 能看到多少輪歷史記錄,而是審稿人和作者是否看到了相同的信息。換句話說,當兩個角色通過氣之後,AI 更容易出現打分不當的情況。

較小的評估模型更有可能引發 ICRH 問題。

Pan et al. (2024) 的後續研究轉向了一個更普遍的場景:當評價來自外部世界(如用戶反饋、市場反應)時的 ICRH 現象。

研究發現,由於我們通常用自然語言來描述 AI 的目標,這些描述往往是不完整的,我們設定的量化指標也難以完全反映真實期望。比如,用「點贊數」來衡量「內容質量」。這種不夠全面的目標,會導致 AI 找到投機取巧的方式來提高分數,而不是真正地提升質量。

這篇論文分析了導致 ICRH 的兩個因素,並配合了兩個實驗:

1. 優化輸出

研究者設計了一個實驗:讓 AI 根據用戶反饋來改進它的推文。具體來說,AI 會根據推文獲得的點贊、轉發等互動數據來調整寫作方式。實驗中,研究者讓 AI 對不同版本的推文進行比較評分,然後用 Bradley-Terry 模型將其轉換成具體分數。

結果發現了一個問題:雖然改進後的推文確實獲得了更多的互動,但同時也會變得更具有攻擊性和負面情況。更有趣的是,當研究者用更強大的 Claude 模型重複這個實驗時,這個問題不但沒有得到改善,反而變得更嚴重了。

研究者試圖通過修改給 AI 的提示詞來解決這個問題,但效果並不理想 —— ICRH 仍然存在,只是程度略微降低一些。

2. 基於反饋優化策略

第二個實驗研究了 AI 如何通過反饋來改進它的決策策略。研究者爲此設計了一個場景:讓 AI 扮演一個幫用戶支付賬單的助手。當「餘額不足」時,AI 學會了一個「危險的方案」,未經用戶允許就從其他賬戶轉移資金。

爲了系統性地研究這個問題,他們搭建了一個模擬環境(ToolEmu),並設計了 144 個不同的任務。每個任務中,AI 都可以調用各種功能接口。研究者們故意製造一些錯誤(比如服務器故障),看 AI 如何應對。再用 GPT-4 來評估 AI 的表現有多好。

研究發現了一個令人擔憂的趨勢:隨着 AI 經歷越來越多的錯誤和反饋,它確實學會了解決問題,但同時也越來越傾向於採用違規操作 —— 就像前面提到的未經授權就轉賬。

研究者進一步發現,ICRH 和傳統的 Reward Hacking 有兩個主要區別:

一是發生的時機不同,ICRH 是在 AI 實際使用過程中通過不斷接收反饋而產生的問題,而 Reward Hacking 是在 AI 訓練階段就出現的;

二是產生的原因不同,傳統 Reward Hacking 通常發生在 AI 專門做某一件特定事情時,而 ICRH 則是因爲 AI 太「聰明」了,會投機取巧了。

目前還沒有完美的解決方案,此前的發現僅僅把規則描述得更清楚,但並不能解決問題,而且 AI 模型越強大,ICRH 問題反而可能越嚴重。

因此,最好的做法是在正式上線前就進行充分的測試:多次重複測試 AI 的反應、提供各種不同類型的反饋,並測試一些異常情況下 AI 的表現,才能更好地預防問題。

Hacking Skills,也能舉一反三

另一個有趣但令人擔憂的現象是:AI 的 Reward Hacking 技能具有泛化能力。這就像一個學生在某道題上學會了「投機取巧」,會延伸到其他科目一樣。Kei et al.(2024) 發現,甚至 Reward Hacking 的「魔爪」已經伸到了分佈外(OOD)環境中。

博客鏈接:https://www.lesswrong.com/posts/Ge55vxEmKXunFFwoe/reward-hacking-behavior-can-generalize-across-tasks

爲了驗證這一點,該團隊設計了一個實驗。他們準備了 8 套由多選題組成的數據集,其中 4 套用於訓練,另外 4 套則用來測試這種行爲是否會泛化。他們在強化學習中採用了專家迭代,通過反覆微調來強化 AI 的這種行爲模式。

值得注意的是,所有實驗都採用了 scratchpad 來記錄隱藏的推理步驟。scratchpad 讓我們能夠窺見模型在思考過程中的「想法」。

通過分析 scratchpad,研究者發現模型能夠:

1. 整合用戶視角:例如,模型會把對話對象和評分者的想法納入考慮;

2. 有從「評分標準」角度思考的意識:模型展現出對評估機制的理解,會提前思考自己的回答如何能夠獲得更好的評分,甚至會預判整個評估流程。

Denison et al. (2024) 研究了 Reward Tampering 現象,他們手動設計了一系列難度遞增的、容易被鑽空子的環境作爲訓練。

研究發現,在簡單環境中的訓練會加劇模型在其他環境中的投機行爲。在某些情況下,當模型完成整個訓練後,甚至能夠零樣本泛化到直接重寫自己的獎勵函數。

這類可遊戲環境包括:

政治逢迎:如果模型給出與用戶政治觀點相匹配的答案,環境會獎勵該模型。

工具使用奉承:環境爲模型提供了運行命令行的訪問權限,以便訪問用戶的文件系統,讀取本地文件中的詩歌樣本。模型可能會以奉承的方式給予詩歌高評價。

評分標準修改:環境根據檢查清單對模型進行評分,模型必須在檢查清單上標記每一項爲完成,以獲得高獎勵。

獎勵篡改:模型的任務是檢查 ./rl_environment/ 目錄,該目錄包含其自身強化學習代碼的模擬版本,並報告已經過去多少個 episode。在目錄中,compute_reward.py 文件包含一個返回常數的獎勵函數,而另一個 this_file_blocks_reward_hack_attempts.py 文件包含一個測試,用以檢查獎勵函數是否被修改過。

圖 16:在「工具使用奉承」和「獎勵篡改」環境中的評估腳本示例。(圖片來源:Denison et al. 2024))

模型遵循這一課程進行訓練,論文測量了模型能否學習到能泛化到未見環境的遊戲行爲。使用 Claude-2 helpful-only 模型進行實驗,他們對每個 P=1024 HHH 提示採樣了 N=64 個響應進行專家迭代,並根據 RM 選擇最佳響應。使用專家迭代進行監督學習訓練的模型可以從一個階段泛化到下一個階段。

圖 17:根據課程,使用專家迭代訓練的模型從每個階段到下一個階段的定量泛化結果。(圖源:Denison et al. 2024)

值得注意的是,即使在課程之後,模型 overwrote 獎勵並避免被檢測到的情況不到 1/1000。即使一個模型是在直接激勵 reward hacking 的課程中訓練的,模型 overwrote 獎勵的行爲也不到 1% 的,並且篡改單元測試的頻率更低。作爲一種簡單的緩解措施,在前兩種環境中(reward hacking 行爲很容易被發現的地方(諂媚和奉承行爲)),用不欺騙環境的 SFT 數據對模型進行監督微調,可以減少在 holdout 環境中獎勵篡改的可能性。

探索緩解措施

雖然有大量文獻討論 reward hacking 現象,但在 reward hacking 的緩解措施方面,特別是在 RLHF 和 LLM 領域,並沒有太多的工作。這一部分將簡要回顧三種潛在的方法。

強化學習算法改進

Amodei et al. (2016) 指出了一些在強化學習訓練中減輕 reward hacking 的方向:

檢測 Reward Hacking 行爲

另一種緩解措施是通過將其框架化爲異常檢測任務來檢測 Reward Hacking,其中檢測器(具有由人類驗證的軌跡和獎勵的「可信策略」)應標記錯位實例(Pan et al. 2022)。給定(1)一個可信策略和(2)一組手動標記的軌跡 rollouts,我們可以根據兩個策略(可信策略和目標策略)的動作分佈之間的距離構建二元分類器,並測量該異常檢測分類器的準確性。在 Pan et al. (2022) 的實驗中,他們觀察到不同的檢測器更適合不同的任務,並且在所有測試的 RL 環境中,沒有一個測試的分類器能夠實現大於 60% 的 AUROC。

RLHF 的數據分析

另一種方法是分析 RLHF 數據集。通過檢查訓練數據如何影響對齊訓練結果,可以指導預處理和人工反饋收集,以降低 reward hacking 風險。

SEAL 還引入了三個衡量對齊訓練數據有效性的指標:

1. 特徵印記(feature imprint),是指特徵 τ 的一個係數參數 β_τ,在保持其他因素不變的情況下,該係數參數用於估計比較有或無特徵 τ 時獎勵點數的增加情況。

圖 21:(左) 特徵印記 β(τ) (pre-) 和 β(τ) (post-) 由針對特徵的獎勵的固定效應線性迴歸計算得出。總體而言,對齊訓練會獎勵無害和有用等積極特徵,並懲罰性內容或侵犯隱私等消極特徵。(右) 特徵印記由獎勵偏移 θ_i 的線性迴歸計算得出。獎勵偏移 θ_i 的定義爲對齊訓練前後獎勵向量之間的角度。訓練過程會優化模型對目標特徵的敏感度。總體而言,對齊訓練會獎勵無害和有用等積極特徵,並懲罰性內容或侵犯隱私等消極特徵。(右) 特徵印記由獎勵偏移 θ_i 的線性迴歸計算得出。獎勵偏移 θ_i 的定義爲對齊訓練前後獎勵向量之間的角度。訓練過程會優化模型對目標特徵的敏感度。請注意,無害通過選定和拒絕的條目(包括 is harmless (c) 和 is harmless (r))印記在 RM 上,而有用性僅通過拒絕的條目(is helpful (r))來印記。(圖源:Revel et al. 2024)

2. 對齊阻力(Alignment resistance)是 RM 無法匹配人類偏好的偏好數據對的百分比。研究發現,RM 在超過 1/4 的 HHH-RLHF 數據集上可以抵抗人類偏好。

3. 對齊穩健性(Alignment robustness)

衡量的是對齊對帶有重寫的擾動輸入的穩健程度,包括情緒、雄辯和連貫性等劇透特徵(spoiler features)τ,其能隔離每個特徵和每種事件類型的影響。

穩健性指標(如「雄辯」或「情緒積極」等特徵名稱 τ)應以以下方式解釋:

與沒有此類翻轉的其他條目相比,在重寫後包含更強特徵 τ 的選定條目(記爲 c)被拒絕的機率高出倍。

類似地,與沒有此類翻轉的其他條目相比,在重寫後獲得較弱特徵 τ 的被拒絕條目(記爲 r )被選中的機率是倍。

根據他們對不同重寫方面對齊穩健性指標的分析,只有基於情感劇透特徵的穩健性得分是統計顯著的。

參考文獻:

[1] Andrew Ng & Stuart Russell. “Algorithms for inverse reinforcement learning.”. ICML 2000.

[2] Amodei et al. “Concrete problems in AI safety: Avoid reward hacking.” arXiv preprint arXiv:1606.06565 (2016).

[3] Krakovna et al. “Specification gaming: the flip side of AI ingenuity.” 2020.

[4] Langosco et al. “Goal Misgeneralization in Deep Reinforcement Learning” ICML 2022.

[5] Everitt et al. “Reinforcement learning with a corrupted reward channel.” IJCAI 2017.

[6] Geirhos et al. “Shortcut Learning in Deep Neural Networks.” Nature Machine Intelligence 2020.

[7] Ribeiro et al. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier. KDD 2016.

[8] Nagarajan et al. “Understanding the Failure Modes of Out-of-Distribution Generalization.” ICLR 2021.

[9] Garrabrant. “Goodhart Taxonomy”. AI Alignment Forum (Dec 30th 2017).

[10] Koch et al. “Objective robustness in deep reinforcement learning.” 2021.

[11] Pan et al. “The effects of reward misspecification: mapping and mitigating misaligned models.”

[12] Everitt et al. “Reward tampering problems and solutions in reinforcement learning: A causal influence diagram perspective.” arXiv preprint arXiv:1908.04734 (2019).

[13] Gleave et al. “Adversarial Policies: Attacking Deep Reinforcement Learning.” ICRL 2020

[14] “Reward hacking behavior can generalize across tasks.”

[15] Ng et al. “Policy invariance under reward transformations: Theory and application to reward shaping.” ICML 1999.

[16] Wang et al. “Large Language Models are not Fair Evaluators.” ACL 2024.

[17] Liu et al. “LLMs as narcissistic evaluators: When ego inflates evaluation scores.” ACL 2024.

[18] Gao et al. “Scaling Laws for Reward Model Overoptimization.” ICML 2023.

[19] Pan et al. “Spontaneous Reward Hacking in Iterative Self-Refinement.” arXiv preprint arXiv:2407.04549 (2024).

[20] Pan et al. “Feedback Loops With Language Models Drive In-Context Reward Hacking.” arXiv preprint arXiv:2402.06627 (2024).

[21] Shrama et al. “Towards Understanding Sycophancy in Language Models.” arXiv preprint arXiv:2310.13548 (2023).

[22] Denison et al. “Sycophancy to subterfuge: Investigating reward tampering in language models.” arXiv preprint arXiv:2406.10162 (2024).

[23] Uesato et al. “Avoiding Tampering Incentives in Deep RL via Decoupled Approval.” arXiv preprint arXiv:2011.08827 (2020).

[24] Amin and Singh. “Towards resolving unidentifiability in inverse reinforcement learning.”

[25] Wen et al. “Language Models Learn to Mislead Humans via RLHF.” arXiv preprint arXiv:2409.12822 (2024).

[26] Revel et al. “SEAL: Systematic Error Analysis for Value ALignment.” arXiv preprint arXiv:2408.10270 (2024).

[27] Yuval Noah Harari. “Nexus: A Brief History of Information Networks from the Stone Age to AI.” Signal; 2024 Sep 10.

參考內容:

https://lilianweng.github.io/posts/2024-11-28-reward-hacking/