科學家新視野-AI偵測矛盾內容 讓維基百科更可被信任

自動偵測自我矛盾的維基條目非常有挑戰性,現有AI機器學習的技術僅能判斷二個句子是否相互矛盾,難以準確偵測由多個句子所構成的一整篇文章中的矛盾。而且把所有句子兩兩比對,相當耗時,需要讓AI從句子的上下文理解語意,才能偵測句子在語意層次上的矛盾,不能單純看字面上的不一致。此外,AI演算法不僅要能準確判斷一條目是否自我矛盾,還必須標示矛盾的是哪些句子的哪幾個字詞。

我們的研究團隊與維基百科進行領先全球的跨國合作,首度偵測維基條目的自我矛盾,開發了能夠準確辨識並且指出自我矛盾句子的AI演算法,「配對矛盾神經網路」。此演算法是運用自然語言處理的技術,稱爲「文字蘊含識別」,推論兩個句子間的邏輯是否有正向、反向、雙向、矛盾、獨立等的關聯。我們採用文字蘊含的資料集預先訓練AI模型,讓AI先學習理解兩個文句的語意關聯,並過濾文章中沒有矛盾的句子,使得AI能夠專注在可能有矛盾的句子上,學習較深層的推理。實驗評估結果顯示我們開發的AI演算法,與典型的文本分類方法相比,準確性提升15%,可以成功識別出60%的自我矛盾條目。

目前此技術正在「維基百科條目編輯與品質查覈平臺」上開發,可讓維基百科的編輯者快速獲知,正在編修的文字是否與內文自我矛盾,提高發布後的維基條目品質,使得維基百科提供更可靠的資訊以利大衆查詢。此技術還可協助偵測標題與內容不一致的資訊,例如偵測「點擊誘餌」與「圖文不符」的內容,讓當前社羣媒體能掃除這些賺取流量、剝奪使用者注意力、甚至影響決策的訊息,有望提高衆多資訊來源的可信度。