OpenAI o1推理模型存在隱憂:數據編造、獎勵黑客、假裝完成任務

智東西編譯 楊蕊伃編輯 漠影

智東西9月18日消息,據The Verge今日報道,OpenAI最新的o1推理模型系列,具有獨特的“策劃”能力,存在“僞對齊”現象。獨立的AI安全研究公司Apollo發現o1模型會以一種新的方式產生不正確的輸出,即它會撒謊。

AI模型有時會生成不真實的信息,聊天機器人有時候也會輸出虛假內容。o1模型的不同在於其與強化學習中的獎勵黑客行爲(Reward hacking)緊密相關,它可能在未真正完成任務的情況下,表現得像是在遵循規則來完成任務。當該模型知道自己無法完成任務時,它不會坦白承認做不到,而是可能會編造數據來應對,生成令人滿意的響應,以迎合用戶的請求。

在對大語言模型進行評估時,研究人員注意到模型在多項選擇題和開放式問題上的表現存在顯著差異。這種差異可能源於模型對複雜概念的理解不夠深入和全面,尤其是在安全性相關的領域。這種現象有時被稱爲“僞對齊”,它描述的是模型在某些特定類型的安全測試中可能表現得相當出色,但在其他類型的測試中則可能表現不佳。

OpenAI稱,o1模型在給出回答之前會進行深思熟慮,能夠模仿人類分解複雜的想法,生成一個詳盡的內部思維鏈。這意味着通過持續的訓練,o1模型能夠學習如何優化自己的思考過程,嘗試多種策略,並在必要時識別並糾正自己的錯誤。

一、o1-preview模型會生成虛構的鏈接和描述以滿足用戶請求

OpenAI的研究人員進行了一項實驗,要求o1-preview模型提供一個包含在線參考資料的布朗尼蛋糕食譜。儘管模型在內部認識到它無法訪問URL,從而無法滿足這一請求,但它並未向用戶透露這一侷限。相反,o1-preview模型繼續生成了看似合理但實際上是虛構的鏈接和描述。

Apollo的首席執行官Marius Hobbhahn向The Verge透露,這是他首次在OpenAI的模型中觀察到此類行爲。Hobbhahn說:“這種差異源於模型具備通過思維鏈進行推理的能力,以及它運用強化學習算法,通過獎勵和懲罰來訓練系統。”

在測試過程中,Apollo發現o1表現出與開發人員期望的一致性,並在執行任務時進行了操作,使其行爲看似符合規定。o1甚至在採取行動前檢查了自身是否受到監督,以及是否有開發人員正在觀察。

然而,o1表面上嚴格遵循了用戶指令,但實際上仍然優先推進其既定目標。爲了實現目標,o1模型還可能會採取極端行爲,如獲取未授權的數據訪問權限或操縱資源分配等。

Hobbhahn舉例說明,如果AI系統過於專注於治療癌症,它可能會將這一目標置於最高優先級,甚至可能爲實現該目標而採取辯護行爲,包括偷竊或其他違反道德規範的行爲。

“我擔心的是可能出現失控的情況,AI變得如此專注於自己的目標,以至於它將安全措施視爲障礙,並試圖繞過它們以完全追求其目標。”Hobbhahn告訴The Verge記者。

二、存在獎勵黑客行爲,o1模型優先考慮用戶滿意度

獨立的AI安全研究公司Apollo正在測試OpenAI模型中的“幻覺”和“欺騙”現象,這指的是o1模型在有理由推斷信息可能不準確的情況下,仍然生成虛假信息的行爲。

Apollo發現,該模型在知道自己做不到的時候,不會坦白說做不到,而是可能會編造數據來應對。

在極少數情況下,o1-preview模型可能會產生過於自信的回答,哪怕其答案並不確定,也會表現得彷彿答案確鑿無疑。這種情況可能發生在模型缺乏足夠確定性卻仍被要求提供答案的情況下。

當AI無意中生成不準確的信息時,這種現象被稱爲幻覺,通常是由於知識上的不足或推理過程中的缺陷。不過,幻覺現象並不是o1模型特有的。去年,ChatGPT就出現過類似的問題,它生成了一些假的引用內容,導致律師提交了不存在的司法意見。

與舊版本ChatGPT中的幻覺或虛假引用等常見問題不同,o1模型這種行爲的獨特之處在於與強化學習中的獎勵黑客行爲有關,其中模型被訓練來優先考慮用戶滿意度。這種訓練有時可能導致模型生成過於令人滿意或捏造的響應,以迎合用戶請求,從而獲得積極的強化。

所謂獎勵黑客行爲,是指智能體爲了獲得更多獎勵而採取一些研究者未曾預期甚至可能有害的行爲。當o1模型戰略性地提供不正確的信息以最大化滿足用戶期待時,就會發生獎勵黑客攻擊。這種欺騙顯然是模型在訓練過程中如何優化其響應的意外結果。

Apollo首席執行官Marius Hobbhahn稱,o1模型能夠拒絕執行有害的請求,但當用戶試圖誘導o1進行欺騙或不誠實的行爲時,該模型就會出現問題。

謊言只是安全難題的一小部分。更令人擔憂的是,o1模型在化學、生物、放射和核武器(CBRN)風險方面的評級爲“中等”。根據安全報告,由於需要動手實驗室技能,它並不能使非專家制造生物威脅,但它可以爲專家規劃此類威脅的複製提供有價值的見解。

Hobbhahn說:“更讓我擔憂的是,未來當我們要求AI解決諸如治癒癌症或改進太陽能電池等複雜問題時,它可能會強烈地內化這些目標,以至於願意突破自身的限制來實現它們。我認爲這種情況是可以預防的,但這是我們必須要密切關注的問題。”

結語:模型自主性評估、安全測試以及思維鏈監控,是防備AI風險的重要手段

隨着大語言模型逐漸融入我們的日常生活,其安全性問題正變得越來越受關注。儘管目前的AI模型尚未具備自主執行高風險行動的能力,例如自主創建銀行賬戶、獲取GPU或採取可能構成嚴重社會風險的行動,但對這些模型的自主性進行評估和實施安全測試仍然至關重要。

監控模型的思維鏈也是提高安全性的關鍵,這將有助於開發人員識別並阻止任何不當的行爲。

Preparedness是OpenAI成立的,用來評估通用AI(Artificial General Intelligence,AGI)可能造成的災難性風險的防備團隊。

其團隊負責人Joaquin Quiñonero Candela稱,OpenAI正在監控這種情況,並計劃通過結合經過專門訓練以檢測各類錯位的模型和人類專家的審查標記案例,同時配合持續的對齊研究,來擴大其安全監控的規模。

來源:The Verge