新研究:57%網絡內容 AI 生成,影響搜索且危及 ChatGPT?

隨着生成式人工智能的迅速應用,要分辨什麼是真實的變得越來越難。從圖像、視頻到文本,人工智能工具可以說處於巔峰,並且能夠依據提示生成複雜的輸出。

出版商與這些人工智能工具所屬公司在版權侵權相關問題上始終在爭鬥。儘管 OpenAI 首席執行官山姆·奧特曼承認沒有受版權保護的內容就無法創建像 ChatGPT 這樣的工具,但版權法並不禁止拿這些內容來訓練人工智能模型。

發表於《自然》雜誌的一項新研究顯示,在線發佈的內容裡有 57%是由人工智能生成的(通過《福布斯》)。來自劍橋和牛津的研究人員宣稱,人工智能生成內容的數量持續增多以及人工智能工具對相同內容的過度依賴,只會導致一個結果——對查詢的低質量回應。

依據這項研究,每次嘗試後,人工智能對查詢的生成響應價值和準確性降低。來自牛津大學的伊利亞·舒邁洛夫博士表示:

“模型崩潰來得如此之快且如此難以捉摸,這令人驚訝。起初,它影響到少數數據——代表性不佳的數據。接着它會影響輸出的多樣性,並且方差降低。有時,您會觀察到多數數據有小幅改進,而這掩蓋了少數數據性能的下降。模型崩潰可能會產生嚴重後果。”

研究人員表示,聊天機器人回覆質量的下降是由於人工智能生成內容週期性過量所致。衆所周知,人工智能模型依賴互聯網上的信息進行訓練。因此,如果互聯網上的信息是由人工智能生成且不準確的,那麼訓練就會變得無效,導致生成錯誤的答案和錯誤信息。

研究人員決定深入挖掘,試圖找出問題的根本原因。首先,這可歸因於未經事實覈查就在網上大量發佈的人工智能生成的文章。該團隊使用了一個預先訓練的人工智能驅動的維基來進行推斷。他們用其輸出對該工具進行訓練。該團隊立即注意到該工具生成的信息質量下降。

該研究進一步指出,儘管這款人工智能工具從一開始就在一個關於犬種的大型信息庫中接受訓練,但經過反覆的數據集訓練後,它把罕見犬種排除在自身的知識範圍之外。

基於此,隨着人工智能的日益普及以及人工智能生成內容在網上的不斷髮布,搜索結果的質量可能會變差。