搜狗發佈全球首個手語AI合成主播,“黑科技”造福聽障人士
5月17日,搜狐科技5G & AI峰會在北京舉行,搜狗CEO王小川應邀出席發表主題演講。活動中,王小川正式發佈最新一代搜狗AI合成主播——全球首個手語AI合成主播“小聰”,基於搜狗領先的人工智能和AI分身技術,以“黑科技”的力量幫助聽障人士更好融入社會,更好享受數字化生活。
根據世界衛生組織發佈的數據,全球聽力障礙人羣高達4.66億,在我國則有2700萬人。因無法常態化、高質量地接受資訊信息,很多聽障人士難以融入社會,最終成爲被遺忘和邊緣化羣體。
目前,在以電腦、手機爲載體的各類新聞資訊、文娛節目中,引入手語協助的少之又少。即使有能力的電視節目提供手語解說時,也多以正常語序編排,很少照顧到手語的特殊表達結構,造成絕大部分聽障者只能理解不足60% 的內容。因此,通過技術創新實現聽障人士真正可懂的手語播報能力,對於幫助聽障者克服溝通障礙,更好融入社會非常有價值。
“小聰”以打造聽障人士真正可懂的通用手語播報爲目標,立足於搜狗領先的數字人技術體系——搜狗分身,集成了超寫實3D數字人建模、機器翻譯、多模態數字人生成、遷移學習、實時面部動作生成及驅動等多項領先AI技術,實現了超寫實3D數字人自然可懂的手語主播能力,使機器可以基於輸入口語文本生成逼真度高、手語表達準確的3D數字人視頻內容,從而具備“超寫實的逼真數字人效果”、“高可懂度的手語表達能力”、“高接受度的手語展現效果”三大特點。
數字人效果方面,“小聰”使用了行業最領先的3D重光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉技術,生產出了高度還原真人髮膚、形象逼真、動作自然生動的數字人模型,數字人寫實度的大幅突破則能夠顯著提升手語播報的真實感與親切感,從而提高播報用戶體驗。
手語表達方面,“小聰”基於《國家通用手語詞典》,能夠實現健聽人語言與聽障者手語語言的機器翻譯能力,基於輸入的健聽人語言能夠低延遲生成高準確率的手語語言表徵,通過搜狗分身的多模態生成技術,實時預測生成對應的超寫實3D數字人驅動參數,進而快速生成數字人手語播報視頻,在測評中可懂度可以達到85%以上,能有效幫助聽障者克服理解障礙,達成信息有效傳遞。
手語展現方面,“小聰”可以完整實現手控信息及非手控信息的表達,通過機器翻譯生成手語表徵信息,覆蓋手部動作、面部表情、口動脣動等多個維度,並基於搜狗多模態端到端生成模型進行聯合建模及預測,生成高準確率的動作、表情、脣動等序列,從而達成自然、地道、接受度更高的手語表達效果。
在此過程中,“小聰”還運用了業內領先的搜狗SLMT(Sign Langure Machine Translation)技術,在輸出符合聽障人士習慣自然手語的基礎上,進一步提高了手語的可懂度、豐富和逼真了AI合成主播的表情與脣動能力,除了可以解決聽障人士在日常生活、公共服務、特殊教育等多個場景下的信息不暢問題,還可以快速生成、批量複製,全年無休、隨時隨地提供服務。
賦能於人彰顯社會責任
作爲AI合成主播的開創者,搜狗分身一直是行業發展的風向標,也始終站在業內最前沿,而搜狗分身之所以能夠“引領”行業,得益於搜狗高度的社會責任感,以及搜狗AI“賦能於人”的發展理念。
自2018年發佈全球首個AI合成主播至今,搜狗分身始終在堅定踐行“以人爲本,爲人賦能”,而“小聰”的誕生,既是搜狗分身技術的再一次迭代突破,又是搜狗聚焦更加需要幫助的聽障特殊人羣,將“以人爲本,賦能於人”貫徹得更加徹底、更有溫度的體現,同時也充分彰顯了搜狗的社會責任感和企業擔當。
作爲全球首個手語AI合成主播,“小聰”能夠幫助廣大聽障人士更好地接收資訊、更好地生活,更好地“看”世界,而從更高維度來看,它的廣泛運用不僅可以造福國內聽障人士,甚至可以走出國門、造福全球,彰顯中國“智”力。