聯和科創首款「客語」文字轉語音系統VoxHakka問市

聯和科創「VoxHakka系統」爲臺灣客語開發尖端的文字轉語音系統。圖/聯和科創提供

智通*(8932)旗下子公司聯和科創15日宣佈,團隊在AI部門主管李鴻欣的帶領下,成功在「客語語音合成技術」領域取得重大突破,攜手國立聯合大學張陳基博士推出「文字轉語音系統VoxHakka」。團隊透露,這套系統是一款結合「多腔調暨多語者」的語音合成系統,而記載該成果的論文,預計將於今年第27屆Oriental-COCOSDA(O-COCOSDA 2024)國際會議上發表。

聯和科創指出,VoxHakka系統的研發,成功解決了保存與活化瀕危的臺灣客語所面臨的挑戰。該系統基於YourTTS架構,實現了語音合成的高自然度、準確性及低延遲,並且獨特地支援所有六種主要的客語腔調。爲了解決客語語音公開可用資料稀缺的問題,團隊採用了一種新穎的網路爬蟲技術以及先進的自動語音辨識(ASR)技術。

李鴻欣坦言,這種方法確保了創建高品質、多語者、多腔調資料集,這對於訓練語音合成模型至關重要。而根據比較平均意見分數(CMOS)進行的嚴格主觀聽力測試證實,VoxHakka在發音準確性、聲調正確性和整體自然度方面,則明顯優於目前市場上現有的所有公開客語語音合成系統。

李鴻欣表示,團隊非常高興能推出VoxHakka系統,這對「客語語音技術」的發展,可說是具有相當重大的意義,並且透過這個項目也突顯了我們致力於運用AI產生積極社會文化影響力的貢獻,特別是在傳統語言保存的領域。而VoxHakka根據CC-BY 4.0授權免費提供,旨在鼓勵其成果可以在研究、教育和創意應用中被廣泛使用。這種開放取用方法也促進了客家社羣內外的協作和創新。

對此,聯和科創也將持續致力於改進和擴展 VoxHakka 的功能,進一步鞏固其在AI語音保存領域的領導地位。O-COCOSDA是東方口語語音資料庫和評估技術協調與標準化委員會的縮寫,該委員會成立於1997年,主要探討語音資料庫及語音處理的評估技術,爲研究人員、業界專家和從業者提供一個交流最新研究成果和合作機會的平臺,涵蓋了自動語音辨識、自然語言處理和語音合成等領域。