☰

業內：測試越來越難以評估AI水平，普通人更難感受AI進步

1月13日消息，2024年底，OpenAI前員工凱爾西·派珀（Kelsey Piper）撰文探討人工智能的“規模定律”是否已遇到技術瓶頸。她認爲，這個問題並不像許多人認爲的那樣重要：現有的人工智能系統已經足夠強大，能夠深刻改變我們的世界。無論規模定律是否成立，未來幾年都將由人工智能的進步主導。

文章發佈不到一週後，OpenAI推出了年終更新，其中包括最新的大語言模型o3。雖然o3未能完全證明“規模定律”在未來是否仍是推動人工智能進步的核心規律，但它無疑粉碎了“人工智能發展已陷入瓶頸”的說法。

o3的表現極其令人驚歎。爲了更好地理解它的非凡之處，我們需要先探討如何科學地評估人工智能系統。

人工智能標準化測試

如果想比較兩個語言模型的表現，需要用一組它們以前從未接觸過的問題進行測試。然而，這遠比聽起來要困難得多，因爲這些模型在訓練過程中已經接觸了大量文本，早已覆蓋了絕大多數測試內容。

因此，機器學習研究員通常會設計基準測試，來評估人工智能系統在數學、編程、閱讀與理解文本等多個任務上的表現，並將這些結果與人類進行比較。曾經，人們用美國數學奧林匹克競賽的題目以及物理、生物和化學問題測試人工智能。

問題在於，人工智能發展得太快，不斷打破基準測試的限制。一旦人工智能在某個基準測試中表現優異，人們便認爲該測試已經“飽和”，無法再有效區分模型的能力，因爲幾乎所有模型都能取得接近滿分的成績。

2024年堪稱“基準測試如太平洋般飽和”的一年。過去，人們用名爲GPQA的基準測試人工智能。這種測試涵蓋物理、生物和化學領域，難度高到即使是相關領域的博士生也很難得分超過70%。但如今，人工智能的表現已超過了相關領域的博士，因此該基準已失去評估意義。

人工智能模型在數學奧林匹克預選賽中的表現也不輸頂尖人類選手。一個名爲MMLU的基準測試用於評估模型的語言理解能力，涵蓋多個領域。現在，最好的模型已經“攻克”了這個基準。另一個名爲ARC-AGI的測試原本被設計爲極其困難，旨在衡量通用的人類智能水平，但經過調優後，o3在這一測試中取得了令人矚目的88%得分。

我們仍然可以設計更多的基準測試。然而，以人工智能的進步速度來看，每個新基準的有效期可能只有短短几年。更重要的是，新的基準測試越來越需要衡量人工智能在超出人類能力範圍的任務上的表現，才能準確描述其能力和侷限性。

當然，人工智能仍可能犯一些低級且令人惱火的錯誤。但如果你最近六個月沒有關注人工智能的最新發展，或者只體驗過免費版的語言模型，那麼你可能高估了它們犯錯的頻率，也低估了它們在高難度、智力密集型任務上的能力。

隱而不見的進步

《時代》雜誌最近的一篇文章指出，人工智能的發展並非“觸及瓶頸”，而是變得愈發隱蔽，其主要進展以一種難以察覺的方式快速推進。

每個人都能明顯區分出5歲孩子學算術和高中生學微積分之間的差別，因此這類進步顯得直觀且清晰。但多數人無法分辨一名數學專業大一新生與世界頂級數學家之間的差距，因此人工智能在這些高階領域的進步往往不被感知。

然而，這種進步的意義非凡。人工智能將通過自動化處理大量曾由人類完成的智力工作來深刻改變世界，而這一變革主要受以下三大因素驅動：

這三大驅動因素將塑造未來數年的人工智能發展，也充分展現了其重要性。不論你是否喜歡人工智能的崛起（就我個人而言，我並不認爲這一世界性轉型正在以負責任的方式推進），這三個領域都未遇到“瓶頸”，而且其中任何一個都足以持續改變我們的世界。（辰辰）

業內：測試越來越難以評估AI水平，普通人更難感受AI進步

相關資訊