大型語言模型,能識破操縱性語言嗎?

就像如今我們生活中的大多數事物那樣,人際間的對話也實現了數字化。

“隨着私人對話轉移至消息應用程序和社交媒體,人們在網絡上遭受精神和情感操縱的情形愈發增多,”計算機科學專業二年級博士生王宇新說,他與計算機科學助理教授索羅什·沃蘇吉以及生物醫學數據科學和流行病學教授、精準健康與人工智能中心主任賽義德·哈桑普爾合作。

王宇新把諸如“煤氣燈效應”這類的精神操縱定義爲一種言語虐待的形式,其故意爲了個人利益去控制或影響某人的思想。

來自僱主或主管的職業破壞方面的威脅,或者有毒關係中的情感勒索,均是常見的例子。

王宇新表示,由於這種語言較爲含蓄並且依賴於上下文,對於大型語言模型而言,識別操縱性語言或許極具挑戰性。

這些模型爲我們每天用於交流,以及用於消費和創建內容的數量迅速增加的應用程序提供了動力。

爲了填補這一空缺,王和她的合作者編制了一個新的對話數據集,該數據集展現或凸顯了對話中的操縱行爲,並藉助該數據集來剖析最先進的人工智能模型在識別操縱性內容方面的有效性。

他們的研究結果於 8 月在計算語言學協會的年會上予以公佈。

MentalManip 數據集包含 4000 組虛構的對話,這些對話是從康奈爾電影對話語料庫的電影劇本中提取的一對角色之間的。研究人員運用了兩種策略來對數據源進行過濾,並找到帶有操縱元素的對話。

首先要手動編制一份包含 175 個關鍵短語的列表,這些短語經常出現在精神操縱語言中,例如“你太敏感了”或“我認識你的經理”。對源數據中的對話進行梳理,從而查找與這些短語的匹配項。第二種方法是通過監督學習訓練一個模型來區分可能具有操縱性的對話。

然後,研究人員測試了一些著名的大型語言模型,包括 OpenAI 的 GPT-4 和 Meta 的 Llama-2。這些模型的任務在於確定研究人員提供的對話裡是否包含操縱元素。

在第二個實驗中,要求模型在看到一些示例之後,確定三個對話中的哪一個包含操縱性語言。最後,在測試模型識別操縱的能力之前,利用新數據集中帶有標籤的操縱性語言示例來對模型進行微調。

研究人員發現,在這三個實例中,這些模型都無法勝任對操縱性內容進行分類的任務。

這些模型,尤其是較小的大型語言模型,往往把一般的毒性和粗言穢語認定爲操縱,這顯示出它們過度敏感。它們在檢測心理操縱方面的總體表現不盡人意,而且在現有的相關心理健康或毒性檢測數據集上對模型進行微調,情況也沒有改善。對對話中的句子進行分析表明,它們在語義上難以區分,這可能是阻礙模型性能的一個因素之一。

王希望他們的數據集和初步成果能激發更多有關這個主題的研究。王說,經過訓練能夠可靠識別操縱的大型語言模型能夠成爲早期干預的寶貴工具,警告受害者對方試圖操縱他們。

據沃索吉所說,識別操縱意圖,特別是那種隱性的,需要一定程度的社交智能,然而當前的人工智能系統恰恰缺乏這種智能。

“我們的工作顯示,雖說大型語言模型正變得愈發複雜,可它們在理解人類對話中的操縱細微之處時,依舊存在困難,”沃索吉說。