☰

Soul App自研端到端語音通話大模型上線，拓展人機交互新體驗

近日，社交平臺Soul App（以下簡稱“Soul”）語音大模型再次升級，上線自研端到端全雙工語音通話大模型，具備超低交互延遲、快速自動打斷、超真實聲音表達和情緒感知理解能力等特點，能夠直接理解豐富的聲音世界，支持超擬人化的多風格語言，實現更接近生活日常的交互對話和“類真人”的情感陪伴體驗。目前，Soul自研的端到端語音通話大模型能力已上線旗下“異世界迴響”實時通話場景（內測中），並將在後續拓展至AI苟蛋等多個AI陪伴、AI互動場景。

自2016年上線，Soul一直致力於以創新的技術方案和產品設計，實現社交體驗的拓展。2020年，Soul啓動對AIGC的技術研發工作，系統推進在智能對話、語音技術、虛擬人等AIGC關鍵技術能力研發工作，並推動AI能力在社交場景的深度落地。

以AI升級社交的過程中，Soul的技術重點之一是致力於實現擬人化、自然化情感陪伴體驗。其中，聲音是重要環節之一。作爲傳遞信息和情感的重要媒介，聲音最能在溝通中賦予“情緒溫度”和“陪伴感”。特別是在社交場景中，情感化、低延遲、多風格、類真實的聲音能力，可以打破“次元壁”，讓線上社交尤其是人機互動中，也能實現真實生活場景聊天的自然流暢感和沉浸現場感，真正完成類現實生活化互動場景中的交互體驗。

因此，爲給用戶帶來更好的情緒反饋和陪伴感，情緒理解、延遲問題一直是Soul技術團隊關注的焦點。

此前，Soul團隊推出了自研的語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力，支持真實音色生成、語音DIY、多語言切換、多情感擬真人實時對話等，目前已應用於Soul “AI苟蛋”、站內狼人遊戲“狼人魅影”AI語音實時互動、獨立新產品“異世界迴響”等場景。

與國際最前沿的技術發展保持同頻，Soul持續完善自身語音技術能力積累，創新AI社交應用體驗。今年7月，在人工智能領域頂級的國際學術會議——國際人工智能聯合會議（International Joint Conference on Artificial Intelligence,IJCAI）舉辦的第二屆多模態情感識別挑戰賽（MER24）上，Soul 語音技術團隊於SEMI（半監督學習）賽道獲得第一名，在國際賽事舞臺上展現了Soul的前沿洞察和技術能力。

如今，自研端到端語音通話大模型的率先上線，再次證明了Soul在行業中紮實的技術能力積累。

區別於傳統的級聯方案，語音到語音的端到端建模，意味着語音交互體系的顛覆式升級，即不再需要從“語音識別、自然語言理解、語音生成”等多個環節流轉，直接語音輸入—語音輸出的端到端模型能夠最大程度實現信息無損傳遞，降低響應延遲時間。

此次Soul自研的端到端語音通話大模型便具備超低交互延遲、快速自動打斷、超真實聲音表達和豐富情緒感知理解能力的特點，支持更自然的人機交互體驗。

在延遲方面，於實際應用過程中，用戶體驗與“異世界迴響”中虛擬人實時語音通話效果時，延遲時間少於行業平均水平，真正實現即時的AI交流和陪伴。

值得一提的是，端到端的語音語義理解和響應以及更自然的語音指令控制，讓Soul語音通話大模型不僅能夠給予情感關懷、理解人聲情緒情感並給出有溫度的迴應，還能夠理解物理世界的聲音場景，模擬物理世界動物聲音、理解多人聊天內容，實現多風格語言切換、文藝內容創作和即興演唱，接近現實交流互動場景需要。

接下來，Soul將持續推進多模態端到端大模型能力建設和應用落地，以AI輔助社交、提升關係建立的質量和效率的同時，構建人機交互新場景，讓用戶可以與AI進行更加有溫度、沉浸、趣味的互動交流，不斷創新社交體驗。

Soul App自研端到端語音通話大模型上線，拓展人機交互新體驗

相關資訊