阿拉斯加教育官員借人工智能出錯引質疑

在阿拉斯加州的安克雷奇(據《阿拉斯加燈塔》報道) - 據《阿拉斯加燈塔》的克萊爾·斯特雷普爾報道,該州的最高教育官員依靠生成式人工智能起草了一項關於阿拉斯加學校手機使用的擬議政策,這致使一份州文件引用了據稱不存在的學術研究成果。

該文件並未披露在其構思過程中使用了人工智能這一情況。至少部分由人工智能生成的錯誤信息最終被呈現在州教育和早期發展委員會成員面前。

教育領域和政府其他地方的政策制定者依賴有充分依據的研究。專員使用虛假的人工智能生成內容表明,在使用人工智能工具方面缺乏州政策,而公衆的信任取決於知道用於爲政府決策提供信息的來源不僅正確,而且真實。

該部門的一位發言人最初將這些錯誤的來源稱作“佔位符”。在本月於馬塔努斯卡 - 蘇西特納自治市舉行的州教育委員會會議之前,在該部門網站上發佈的一份決議的正文中到處都引用了這些來源。

後來,州教育專員迪娜·畢曉普表示,它們是她使用生成式人工智能創建的初稿的一部分。她說,她在會議前意識到了自己的錯誤,並向委員會成員發送了正確的引用。委員會通過了該決議。

然而,在該部門後來分發的更正文件中,存在錯誤的引用以及其他所謂的“人工智能幻覺”的痕跡,畢曉普稱該文件已獲委員會投票通過。

該決議指示教育和早期發展部制定有關手機限制的示範政策。在該州網站上發佈的決議引用了據稱在列出的網址無法找到,且其標題在更廣泛的在線搜索中也未出現的學術文章。

該文件的六個引用中有四個似乎是在科學期刊上發表的研究,但卻是錯誤的。該州引用的期刊確實存在,但該部門引用的標題未在列出的期刊期中發表。相反,在列出的鏈接上發佈的是關於不同主題的研究。

埃莉·帕夫利克(Ellie Pavlick)是布朗大學計算機科學和語言學的助理教授,也是谷歌 Deepmind 的研究科學家,她審查了這些引文,並表示它們看起來像她見過的其他由人工智能生成的虛假引文。

“這正是人們所看到的那種由人工智能生成的幻覺引文的類型。”她說。

她說:“通常會看到這類虛假引文,它們會有真實的期刊,有時甚至是真實的個人,名字看似合理,但卻並不對應真實的事物。”

該文件的參考部分包括網址,這些網址指向了關於不同主題的學術文章。該州的網址不是指向《人類行爲中的計算機》雜誌中的“禁止手機可提高學生成績:來自準實驗的證據”,而是指向了該出版物中的另一篇文章“Facebook 上的性化行爲”。對正確標題的搜索沒有任何結果。該州稱在《教育心理學雜誌》中可以找到的兩項研究也是如此。

在阿拉斯加燈塔(Alaska Beacon)要求該部門提供虛假研究後,官員們更新了在線文件。當被問及該部門是否使用了人工智能時,發言人布萊恩·扎達利斯(Bryan Zadalis)表示,這些引文只是在插入正確信息之前的佔位符。

他在週五的一封電子郵件中寫道:“在起草過程中列出的許多來源都是佔位符,是在最終來源接受審查、比較和審覈時使用的。這是我們許多人已經習慣的工作流程。”

畢曉普後來稱,這是一份被錯誤發佈的初稿。

但在畢曉普所說的經董事會審查並投票通過的整個文件中,仍能發現人工智能生成文件的痕跡。

該部門更新的文件仍引導讀者參考美國心理協會一項虛構的 2019 年研究,以支撐該決議中“學校限制手機使用的學生壓力水平更低,學業成績更高”這一說法。

雖然該文件中這一說法的來源有誤,但有一項研究顯示,智能手機對課程理解和幸福感有影響——不過研究對象是大學生而非青少年。

發表該研究的紐約理工學院研究員兼教授梅麗莎·迪馬蒂諾稱,儘管她尚未對手機對青少年的影響展開研究,但她覺得自己的研究結果在這一人羣中會更加顯著。

她說,正如該州虛假研究的標題所暗示的那樣,實際研究青少年的難題在於,研究人員必須獲得學校的許可才能對學生展開研究。

在阿拉斯加燈塔多次詢問來源的情況下,該部門於週五在網上更新了文件。更新後的參考文獻列表用馬來西亞在線教育技術雜誌的一篇真實文章替換了 100 多年曆史的《教育心理學雜誌》中那篇不存在的文章的引用。

畢曉普稱,這些錯誤“毫無惡意”,此次事件也未帶來明顯損害。

然而,這些錯誤引用的確表明了人工智能錯誤信息何以能夠影響州政策——特別是當高級別州官員把該技術用作起草的速記手段,致使錯誤最終出現在公共文件和官方決議裡。

教育部發言人的聲明顯示,在該部門使用這類“佔位符”並非鮮見。倘若這些佔位符通常爲人工智能生成的內容,此類錯誤極易再度出現。

人工智能專家帕夫利克稱,這種情形引發了更廣泛的思考,也就是人們從哪裡獲取信息以及錯誤信息的傳播情況。

她說:“我覺得這着實是個令人憂心的問題,特別是當有權威地位的人使用這種技術時,因爲原本就存在的信任度會因此降低,對吧?只要有幾次信息是假的,不管是不是有意的,那人們就很容易把啥都當成假的。”

在這個例子裡,科學文章——長期以來被認可的藉助研究、數據和事實來驗證論點的形式——遭到了質疑,這或許會削弱其作爲可信資源的程度。

她說:“我認爲對很多人來講,他們覺得人工智能在一定程度上是搜索的替代品,因爲在某些方面感覺挺相似的。就像,他們在電腦跟前,在文本框裡輸入,然後就得到這些答案。”

她提到了去年的一個法律案件,在這個案件中,一名律師使用了一個人工智能聊天機器人來撰寫文件。該聊天機器人引用了虛假案例,而律師隨後在法庭上使用了這些案例,這導致法官考慮對該律師進行懲罰。帕夫利克稱,那裡出現的那些錯誤令她聯想起了 DEED 文件中的情況。

她說,令人擔憂的是,該技術已被廣泛運用,然而公衆對其工作原理的瞭解卻未相應增多。

“我不知道這究竟是誰的責任——或許更多地落在我們,也就是人工智能社區這邊,得更好地開展教育工作,因爲很難去指責人們不理解,沒意識到他們需要以有別於其他搜索工具、其他技術的方式來對待這個。” 她說道。

她說,提升人工智能素養是避免技術被濫用的一種途徑,不過對於怎樣做到這一點,目前還沒有得到普遍認可的最佳做法。

“我覺得像這類例子,希望能有所升級,從而讓整個國家、整個世界對這一結果更感興趣。” 她說道。