民調大數據研究不應淪爲「類文宣」

(圖/資料照)

民調可信度一直受到質疑,經過長年的選舉洗禮,臺灣民衆也日益體認到民調需要「揀選」,少數幾家有定期出民調,且與選舉結果較吻合的民調機構才值得信賴,今年坊間也出現「臺灣民調透明百科計劃」評鑑各家民調的質量。

民衆對民調可能變「民調(ㄊㄧㄠˊ)」,被扭曲成文章已有警覺,然而對於大數據,民衆卻是不那麼懂的,成爲另外一個漏洞,能作一些引導輿論的操作。

舉例說明,近日有篇文章「陳時中聲量高峰」,裡面提到兩段文字,很明顯是有利於黃珊珊的論述。當然,如果黃珊珊真的聲勢看漲,作爲論述者,點出來可不可以?當然可以。但依筆者看.這篇分析至少有二大問題:

1、各公司網路聲量統計方式皆不透明,難建立絕對權威性。

大數據在選舉空戰的時代,確實是很重要,但其鑑定成果一直是黑箱。比方同樣是大數據平臺,有些平臺陳時中30日聲量隨便都破百萬筆,而「陳時中聲量高峰」一文引述的輿情資料庫,近日的一份報告(量測時間:2022/08/08至09/07),陳時中聲量僅68萬筆,差距甚大。各家公司技術有異,不可能「窮舉」各種網路上的輿論,資料蒐集的範圍更被視爲商業機密,自然也很難公開一個能讓所有人信服的資料來源清單,更別談誰在聲量上能「超越」對手,能參考的恐怕只有同一個榜單上,各位參選人「漲跌的趨勢」。要真正找出一個準確的數字,是不太可能的。

2、網路好感度僅能參考,過度分析無太大意義。

這件事情直白的說,過去數個月,哪位政治人物的聲量比林智堅高?但這聲量對林智堅有什麼幫助嗎?沒有,過街老鼠人人喊打是一種高聲量,但絕對沒有政治人物要這種聲量,大家追求的是正面評價。因應於此,許多輿情分析報告裡面都有談到網路好感度,通常是拿機器檢視後的正面聲量,除以負面聲量,比值越高表示好感度越高。

問題就來了,機器終究不比人腦聰明,大家都知道中文有一些複雜的語法,以「我們中出了叛徒」爲例,機器到底判讀成「我們中間出了叛徒」的意思,還是判別成「我們『中出』了叛徒」,這就是個未知。

將一句話正確的拆分都有難度,更遑論判斷一段文字是正面或負面。熟悉技術的朋友表示,只要一句話出現某人+負面字眼,就可能得出負面的結論,舉例來說,「蔣萬安抨擊陳時中疫苗採購黑箱」,那麼在機器的角度,蔣萬安與陳時中都可能被記上一筆「負面」聲量,但實際上在人工客觀判讀上,這應該僅是陳時中的負面聲量,而不是蔣萬安的,但系統難以給予正確判別。

也就是說,網路好感度僅是一個參考指標,「陳時中聲量高峰」一文斬釘截鐵說蔣萬安負面聲量居三人之冠,未免過於武斷。

退一步說,假定該文的「好感度」與「聲量」都可信。蔣萬安聲量18萬筆,負面聲量佔16%(近3萬筆),陳時中68萬筆聲量中,14%的負面聲量(9萬多筆),卻成了負面聲量之冠?未免有些牽強。

筆者不願惡意揣摩「陳時中聲量高峰」一文的動機,與該文引述之快析輿情資料庫的可靠性。但一篇文導出對黃珊珊絕對有利的結論,一般民衆卻未必有足夠背景知識,知道大數據分析的侷限性,如此將得到不夠客觀的認知。還是應該正本清源,讓大家瞭解大數據的侷限性,唯有大衆瞭解到世界上並不存在「真正完全正確的大數據判讀」,大數據研究纔不致於淪爲「類文宣」般的操作。

(作者爲網路媒體工作者)