醫院人工智能轉錄工具竟編造無中生有內容

舊金山——科技巨頭 OpenAI 一直聲稱其由人工智能驅動的轉錄工具 Whisper 具備接近“人類水平的穩健性和準確性”。

但 Whisper 存在一個重大缺陷:據對十幾位軟件工程師、開發人員和學術研究人員的採訪,它容易編造大量文本,甚至是整句話。

這些專家稱,一些編造的文本——業內稱之爲幻覺——可能包含種族評論、暴力言論甚至想象中的醫療手段。

專家表示,這種編造情況是有問題的,因爲 Whisper 正被用於全球衆多行業,進行採訪的翻譯和轉錄、在流行的消費技術中生成文本以及爲視頻製作字幕。

更令人擔憂的是,他們表示,儘管 OpenAI 警告該工具不應在“高風險領域”使用,但是醫療中心仍急切地使用基於 Whisper 的工具來轉錄患者與醫生的諮詢。

問題的嚴重程度難以辨別,但研究人員和工程師表示,他們在工作中經常遇到 Whisper 的幻覺。例如,一位密歇根大學的研究人員在對公開會議進行研究時表示,在他開始嘗試改進模型之前,他檢查的每 10 個音頻轉錄中就有 8 個存在幻覺。

一位機器學習工程師稱,他最初在分析的超過 100 小時的 Whisper 轉錄裡,約有一半存在幻覺。第三位開發人員表示,他用 Whisper 創建的 26000 份轉錄中,幾乎每份都存在幻覺。

即使在錄製良好的短音頻樣本中,問題仍然存在。計算機科學家最近的一項研究在他們檢查的 13000 多個清晰音頻片段中發現了 187 個幻覺。

研究人員表示,這種趨勢將導致數百萬份錄音中的數萬份錯誤轉錄。

這種錯誤可能會造成“非常嚴重的後果”,尤其是在醫院環境中,去年之前一直領導拜登政府白宮科學和技術政策辦公室的阿隆德拉·尼爾森(Alondra Nelson)說道。

“沒人希望被誤診,”新澤西州普林斯頓高等研究院的教授尼爾森女士說。“應該設定更高的門檻。”

Whisper 還被用於爲聾人和重聽人士創建隱藏字幕——這一羣體尤其面臨錯誤轉錄的風險。聾人克里斯蒂安·沃格勒(Christian Vogler)說,這是因爲聾人和重聽人士無法識別出隱藏在所有這些其他文本中的編造內容,他負責指導加勞德特大學(Gallaudet University)的技術獲取項目。

OpenAI 被敦促解決問題

這種幻覺的普遍存在致使專家、倡導者和前 OpenAI 員工呼籲聯邦政府考慮制定人工智能監管規定。

“如果把這個東西公佈出來,而人們對其能做什麼過於自信,並將其整合到所有其他系統中,那就有問題了。”今年 2 月因對公司方向的擔憂而從 OpenAI 辭職的舊金山研究工程師威廉·桑德斯(William Saunders)說。

OpenAI 的一位發言人表示,公司不斷研究如何減少幻覺,並感謝研究人員的發現,還稱 OpenAI 在模型更新中納入了反饋。

雖然大多數開發人員認爲轉錄工具會出現拼寫錯誤或其他錯誤,但工程師和研究人員表示,他們從未見過另一個像 Whisper 這樣出現如此多幻覺的人工智能驅動的轉錄工具。

Whisper 幻覺

該工具已融入 OpenAI 旗艦聊天機器人 ChatGPT 的某些版本里,並且是甲骨文和微軟雲計算平臺的內置服務,這兩個平臺爲全球數千家公司提供服務。它還用於將文本轉錄和翻譯成多種語言。

僅在上個月,Whisper 的一個最新版本就在開源人工智能平臺 HuggingFace 上被下載了超過 420 萬次。那裡的機器學習工程師 Sanchit Gandhi 稱,Whisper 是最受歡迎的開源語音識別模型,從呼叫中心到語音助手,無所不包。

康奈爾大學的 Allison Koenecke 教授和弗吉尼亞大學的 Mona Sloane 教授檢查了他們從卡內基梅隆大學主辦的研究庫 TalkBank 獲得的數千個簡短片段。他們確定,近 40%的幻覺有害或者令人擔憂,因爲說話者可能會被誤解或者被歪曲。

在他們所發現的一個例子裡,有一位發言者說道:“他,那個男孩,要去,我不太確定確切地,拿傘。”

但轉錄軟件補充說:“他拿了一大塊十字架,一小塊……我確定他沒有恐怖刀,所以他殺了很多人。”

在另一段錄音中,一位發言者描述了“另外兩個女孩和一位女士”。Whisper 編造了有關種族的額外評論,補充道“另外兩個女孩和一位女士,嗯,她們是黑人。”

在第三次轉錄時,Whisper 編造出了一種不存在的藥物,叫“超激活抗生素”。

研究人員不確定 Whisper 和類似工具爲何會產生幻覺,但軟件開發人員表示,這種編造往往發生在停頓、背景聲音或播放音樂時。

OpenAI 在其在線披露中建議,在“決策情境中不要使用 Whisper ,因爲準確性方面的缺陷可能會導致結果出現顯著偏差。”

轉錄醫生預約

這一警告並未攔住醫院或醫療中心使用包括 Whisper 在內的語音轉文本模型來轉錄醫生就診時所說的內容,從而讓醫療提供者能在做筆記或寫報告上花費更少的時間。

包括明尼蘇達州的曼卡託診所和洛杉磯兒童醫院在內的 3 萬多名臨牀醫生以及 40 個醫療系統,已經開始使用由在法國和美國設有辦事處的 Nabla 開發的基於 Whisper 的工具。

Nabla 的首席技術官馬丁·雷森(Martin Raison)稱,該工具針對醫學語言做了微調,用於轉錄和總結患者的互動情況。

公司官員表示,他們知道 Whisper 可能會產生幻覺,並正在緩解這個問題。

由於“數據安全方面的原因”,Nabla 的工具會刪除原始音頻,所以無法把 Nabla 的人工智能生成的轉錄和原始錄音作比較,雷森說道。

Nabla 表示,該工具已被用於約 700 萬次醫療就診的轉錄工作。

前 OpenAI 工程師桑德斯先生稱,如果不對記錄稿進行仔細覈查,或者臨牀醫生無法獲取錄音來覈實其準確性,那麼刪除原始音頻可能會令人憂心。

他說:“要是把原始真相拿走,就沒法發現錯誤了。”

Nabla 表示,沒有哪個模型是完美的,他們當下要求醫療提供者迅速編輯並批准轉錄的筆記,不過這種狀況可能會有所改變。

隱私問題

由於患者與醫生的會面是保密的,很難知道人工智能生成的記錄稿如何影響他們。

加利福尼亞州議員麗貝卡·鮑爾-卡漢(Rebecca Bauer-Kahan)稱,今年早些時候,她帶着一個孩子去看醫生,並且拒絕簽署醫療網絡提供的一份表格,這份表格是尋求她的許可,將諮詢音頻與包括微軟 Azure(由 OpenAI 最大投資者運營的雲計算系統)在內的供應商進行共享。

“這份發佈說得很明確,營利性公司將有權擁有這些,”在州議會代表舊金山郊區部分地區的民主黨人鮑爾-卡漢女士說道。“我當時的態度就是‘絕對不行’。”

約翰·繆爾健康中心發言人本·德魯(Ben Drew)表示,該醫療系統遵循州和聯邦的隱私法。