人類對「AI滅絕論」的擔憂,這一方法能解決嗎?|深度長文

人工智能(AI)會讓人類滅絕嗎?

這一有關“AI 滅絕論”的爭論正變得愈發激烈。

日前,著名 AI 學者吳恩達發文稱,他對 AI 的最大擔憂是“AI 風險被過度鼓吹並導致開源和創新被嚴苛規定所壓制”,甚至談到“某些人傳播(AI 滅絕人類的)恐懼,只是爲了搞錢”。

這一言論,引發了包括吳恩達、圖靈獎得主 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 和 Google DeepMind 首席執行官 Demis Hassabis 等人的“在線 battle”。

Yann LeCun 同意吳恩達的觀點,認爲 AI 的進展遠未構成對人類的威脅,並稱“天天鼓吹這些言論,就是在給那些遊說禁止開放 AI 研究技術的人提供彈藥”。

Demis Hassabis 則認爲,“這不是恐嚇。如果不從現在就開始討論通用人工智能(AGI)的風險,後果可能會很嚴重。我不認爲我們會想在危險爆發之前纔開始做防範。”

除了在 X 上發帖迴應,Geoffrey Hinton 甚至聯合 Yoshua Bengio 以及全球衆多專家學者發表了一篇題爲《在快速發展的時代管理人工智能風險》(Managing AI Risks in an Era of Rapid Progress)的共識論文。

他們表示,AI 可能導致社會不公、不穩定、減弱共同理解,助長犯罪和恐怖活動,加劇全球不平等;人類可能無法控制自主 AI 系統,對黑客攻擊、社會操縱、欺騙和戰略規劃等領域構成威脅;AI 技術的發展可能自動化軍事活動和生物研究,使用自主武器或生物武器;AI 系統還有可能被廣泛部署,代替人工決策,在社會中扮演重要角色。

此外,他們也表示,如果 AI 技術管理得當、分配公平,先進的 AI 系統可以幫助人類治癒疾病、提高生活水平、保護生態系統。

在這場爭論的背後,涉及到一個被業內頻頻提及的“關鍵詞”——AI 對齊(AI Alignment)。

那麼,AI 對齊是否是一種可行的減緩人類擔憂的方法?又該如何做?

AI 對齊的“四大原則”

近日,來自北京大學、劍橋大學、卡內基梅隆大學、香港科技大學和南加利福尼亞大學的研究團隊,聯合發佈了一篇調查論文,深入探討了“AI 對齊”的核心概念、目標、方法和實踐。

據論文描述,AI 對齊指的是確保 AI 追求與人類價值觀相匹配的目標,確保 AI 以對人類和社會有益的方式行事,不對人類的價值和權利造成干擾和傷害。AI 對齊的關鍵目標爲四個原則:

這四個原則指導了 AI 系統與人類意圖和價值的對齊。它們本身並不是最終目標,而是爲了對齊服務的中間目標。

另外,該研究將當前對齊研究分解爲兩個關鍵組成部分:前向對齊和後向對齊。前者旨在通過對齊訓練使 AI 系統對齊,而後者旨在獲取有關係統對齊的證據,並適當地管理它們,從而避免加劇對齊不當的風險。前向對齊和後向對齊形成一個循環過程,其中通過前向過程的 AI 系統的對齊在後向過程中得到驗證,同時爲下一輪的前向對齊提供更新的目標。

圖|對齊循環

在前向對齊和後向對齊中,研究共討論了四種 AI 對齊的方法和實踐。

1.從反饋中學習(Learning from feedback)

從反饋中學習(Learning from feedback)涉及到一個問題,即在對齊訓練期間,我們如何提供和使用反饋來影響已訓練 AI 系統的行爲?它假定了一個輸入-行爲對,並只關心如何在這個對上提供和使用反饋。

圖|從反饋中學習過程的概覽

在大型語言模型(LLMs)的背景下,一個典型的解決方案是基於人類反饋的強化學習(RLHF),其中人類評估者通過比較聊天模型的不同答案來提供反饋,然後使用強化學習根據已訓練的獎勵模型來利用這個反饋。

儘管 RLHF 很受歡迎,但它面臨着許多挑戰。一個重要的挑戰是可擴展監督,即如何在人類評估者難以理解和評估 AI 系統行爲的複雜情境中,爲超越人類能力的 AI 系統提供高質量的反饋。另一個挑戰是如何提供關於道德性的反饋,這個問題是通過機器倫理的方法來解決的。在倫理方面,不對齊也可能源於忽視價值觀中的關鍵變化維度,比如在反饋數據中代表某些人口羣體不足。還有一些工作結合反饋機制與社會選擇方法,以產生更合理和公平的偏好彙總。

2.分佈轉移下的學習(Learning under Distribution Shift)

分佈轉移下的學習(Learning under Distribution Shift)與從反饋中學習形成對照,它專注於輸入分佈發生變化的情況,即分佈轉移發生的地方。更具體地說,它專注於在分佈轉移下保持對齊性質(即與人的意圖和價值保持一致),而非模型的能力。

圖|分佈轉移下的學習概覽

與分佈轉移相關的一個挑戰是目標誤泛化,即在訓練分佈下,AI 系統的預期目標(例如,遵循人類的真實意圖)與其他不對齊的目標(例如,無論手段如何,都獲得人類批准)難以區分。系統學習了後者,導致在部署分佈中出現不對齊的行爲。另一個相關挑戰是自我誘導的分佈轉移(ADS),其中 AI 系統改變其輸入分佈以最大化獎勵。目標誤泛化和 ADS 都與 AI 系統中的欺騙行爲和操縱行爲緊密相關,可能是它們的原因。

解決分佈轉移的干預方法包括算法干預,改變訓練過程以提高在其他分佈下的可靠性,以及數據分佈干預,擴展訓練分佈以減小訓練和部署分佈之間的差距。前者包括 Risk Extrapolation(REx)和 Connectivity-based Fine-tuning(CBFT)等方法。後者包括對抗性訓練,通過對抗輸入擴展訓練分佈,以及協同訓練,旨在解決單一代理和多代理環境之間的分佈差距。

3.保證(Assurance)

保證(Assurance)指一旦一個 AI 系統經過前向對齊,我們仍然需要在部署之前對其對齊性感到有信心。這就是 Assurance 的作用:評估已訓練 AI 系統的對齊性。

圖|在 Assurance 領域的研究方向、技術和應用組織

保證的方法包括安全性評估以及更高級的方法,例如可解釋性技術和紅隊測。保證的範圍還包括驗證系統與人的價值觀的對齊性,包括專注於可證明合作性和道德性的正式理論,以及各種經驗性和實驗性方法。

保證貫穿 AI 系統的整個生命週期,包括在訓練之前、訓練過程中、訓練之後和部署後,而不僅僅是在訓練之後。

4.治理(Governance)

治理(Governance)單獨無法提供對系統的實際對齊性完全的信心,因爲它沒有考慮到現實世界的複雜性。這需要針對 AI 系統的治理努力,重點關注它們的對齊性和安全性,覆蓋系統的整個生命週期。

圖|分析目前 AI 治理的框架

AI 治理需要多方利益相關者參與,包括政府法規、實驗室的自我治理以及審計等第三方實踐。另外,AI 治理還應關注一些開放性問題,包括開源治理的緊迫挑戰(開源模型的治理以及是否將高度能力模型開源的問題),以及國際協調在 AI 治理中的重要性。除了政策研究,公共部門和私營部門也應採取關鍵行動。

這是一個全球普遍關注的議題

目前,生成式 AI 的倫理和安全治理已經成爲全球 AI 領域普遍關注的議題,各大科技企業紛紛提出了自己的理念,並採取了實際行動。

今年 7 月,OpenAI 宣佈成立了一個新的超級對齊團隊(Superalignment),並動用公司 20% 的計算資源來應對 AI 失控問題。該團隊的使命是發展一種自動對齊研究員(automated alignment researcher)系統,首先進行訓練以達到大致與人類水平的 AI 研究者,然後利用大規模的計算資源進行快速迭代,最終實現 AI 的自我監管。

今年 9 月,Anthropic 發佈了負責任的擴展政策(Responsible Scaling Policy,RSP),該政策採用了一系列技術和組織協議,旨在幫助管理日益強大的 AI 系統開發所帶來的風險。

此外,Google DeepMind 的政策團隊此前提出了一個模型,該模型考慮了 AI 系統對人類社會的潛在風險。除了關注模型本身存在的技術性風險,還需要關注由技術濫用所帶來的風險。

另外,OpenAI、Anthropic、微軟、谷歌也發起成立了一個新的行業組織“前沿模型論壇”(Frontier Model Forum),確保“安全地、負責任地”開發部署前沿 AI 模型。

值得注意的是,除了科技公司,各國政府和組織也在積極尋找對策,參與全球 AI 治理。

在國際範圍內,歐盟引入了《人工智能法案》,採用基於風險的方法,對不同程度的 AI 進行監管要求。美國則發佈了一系列自願性標準,如《AI風險管理框架》和《AI權利法案藍圖》,重點強調 AI 的創新和發展,傾向於採用組織自願遵守的指南、框架或標準等方式進行 AI 應用的軟治理。

國內方面,中國發布了《生成式人工智能服務管理暫行辦法》,堅持發展與安全並重的原則,鼓勵創新與治理相結合,實施了包容審慎和分類分級的監管措施,旨在提高監管的高效性、精確性和敏捷性。

本月初,全球首屆 AI 安全峰會在英國召開,聚集了來自 100 名各國政府官員、AI 企業代表和專家,共同探討了 AI 可能帶來的風險。28 個國家和歐盟一同達成了《布萊切利宣言》,旨在推動全球在 AI 安全領域的合作。

面向未來,對生成式 AI 的有效監管和治理,離不開政府、企業、行業組織、學術團體、用戶、社會公衆等多元主體的共同參與,需要更好發揮出多方共治的合力作用,推進踐行“負責任人工智能”(responsible AI)的理念,打造安全可信的生成式 AI 應用和負責任的 AI 生態。

未來,實現對生成式 AI 的有效監管和治理需要政府、企業、行業組織、學術界以及社會公衆等多方共同參與,積極踐行“負責任人工智能”理念,以構建安全可信的生成式 AI 應用和負責任的 AI 生態系統。

最後,援引馬斯克在全球首屆 AI 安全峰會的發言,強調“AI對齊”的重要性:

“總體而言,AI 很有可能會產生積極的影響,並創造一個富饒的未來,那時,商品和服務將不再稀缺。但這多少有點像魔法精靈,如果你有一個可以實現所有願望的魔法精靈,通常這些故事的結局都不會太好,小心你許下的願望。”