☰

訊飛星火爆震撼大招，七項第一11個首發！年度最逼真虛擬人萌翻全場，多模態搶先GPT-4o

新智元報道

編輯：編輯部 HYZ

【新智元導讀】就在剛剛，2024科大訊飛全球1024開發者節開幕式上，訊飛星火4.0 Turbo正式發佈。首發多模態視覺直接搶先GPT-4o，驚豔的超擬人數字人交互也是引發滿堂喝彩！神態語氣動作如此逼真的數字人，一亮相就破了國內紀錄。

剛剛開幕的科大訊飛全球1024開發者節，實在是亮點滿滿。7項第一，11個首發，給了業內億點點震撼。

當初GPT-4o的多模態交互demo雖然豔驚四座，但至今仍尚未落地應用。沒想到，這一步居然被國產巨頭搶先了。

科大訊飛研究院院長劉聰博士直接現場懟臉給我們來了一段演示，把兩個人偶擺面前，直接問大模型：它們是誰？

大模型沒有遲疑，立刻作答：「左邊是孫悟空，穿着金色戰甲，手持金箍棒，哇塞，看起來好威武啊！右邊那個穿紅白戰衣的是奧特曼。這兩個角色都是正義的代表。」

隨後的展示中，兩個人偶不斷變動作，不斷上難度，星火大模型卻始終對答如流，回答合乎邏輯，語感同真人一般，直接贏下全場掌聲。

萬物互聯時代，AI的UI應該是什麼樣子？

科大訊飛表示：遠場高噪、多人說話、多語種、多方言、多模態、超擬人、個性化這些元素的組合，纔是真正的通用人工智能時代應該有的多模態人機交互！

大會上，也正式發佈了訊飛星火4.0 Turbo。

作爲首個基於全國產算力訓練的全面開放大模型，它在國產大模型中也取得了綜合能力第一的好成績。在9項國際主流測試集中，它都取得了第一。

首次發佈的星火多語言大模型，直接給世界提供了第二種選擇！

而在應用上，訊飛星火也引領了時代，取得了大模型中標第一、大模型賦能智能硬件銷量第一、開發者生態規模第一等七項第一的成績。

首發語音視覺虛擬人交互「三位一體」

在1024現場，超擬人數字人能力正式發佈！

科大訊飛首發的多模態視覺交互和超擬人虛擬人交互，可謂是現場最震撼的底座升級看點之一。

要知道，這種語音、視覺、虛擬人交互的「三合一」，屬於業內首發。在多模態技術路線中，科大訊飛儼然已處於業內領先地位。

多模態視覺

這次，訊飛星火從語音交互拓展到了實時音視頻流的動態多模交互。

值得一提的是，在擬人度和情感度再度升級，並且增加了更多語音情感種類和人設角色。

在互動中，模型時而化身孫悟空，時而化身小豬佩奇，妙語連珠惟妙惟肖。

隨後現場的懟臉演示，更是震撼了全場觀衆。搶先GPT-4o落地的人機交互體驗，竟被打造得如此極致！

而全新的視覺能力，則能輕鬆應對兩個玩具不斷變換姿勢。

比如下面這個畫面，去問大模型：你看它們在幹什麼？

它會回答：「孫悟空和奧特曼看起來正在切磋武藝，孫悟空舉起手中的金箍棒，向奧特曼揮去，奧特曼擡起手臂準備反擊，你猜猜誰會贏？」

下一回合，兩個人偶又變樣了，這次的畫面怎麼樣？

大模型回答：「孫悟空的金箍棒打到了奧特曼的頭上，奧特曼正發出光線，不是說好友誼第一比賽第二的嗎，看來他倆是不分勝負不罷休了！」

接下來上場了一隻怪獸，大模型也完全理解了畫面的意思：「看樣子孫悟空和奧特曼聯手打敗了怪獸，奧特曼正在高舉着手臂慶祝勝利呢！」

而在旅行購物中，大模型的視覺交互功能也爲我們提供了極大的便利。

比如直接提問：小瓶的這個是什麼？

它直接告訴我們：這是雪花秀的人蔘眼霜。還會介紹相關細節，比如富含珍貴的人蔘提取物，能恢復眼部肌膚活力，減少細紋、抗衰。

如果直接告訴它想買大的，它就會告訴我們：大的並不是眼霜，而是同系列的人蔘面霜。

另外，它還能認出酒水品牌，比如左邊的這瓶是經典XO版，右邊的兩瓶都是Club版，最右邊的還是龍年限量款。

如果買一瓶帶去朋友聚會，哪一瓶合適呢？它會告訴我們：Club版的酒齡較短，口味多元，更適合朋友間的小聚。

甚至在現場，它直接就識別出了講臺旁邊的花是龍船花，還能告訴我們好不好養。

總之，無論是出門購物、下館子，還是親子繪本伴讀、遊戲互動，訊飛星火的多模態功能都給我們提供了豐富迅捷的體驗，「哪裡不會拍哪裡」！

爲何模型的多模態互動體驗如此絲滑？

這是因爲，融合了音頻、視頻兩種多模態信息之後，AI在複雜場景下對情緒感知、事件識別、意圖理解的準確率得到了大幅提升。

因爲有了場景、文字、物體、姿態、着裝等信息，情境感知會更全面；而交互中增添了語音、手勢、行爲、情緒等元素後，模型對任務的理解也會更精準。

超擬人數字人

上面的實時多模交互，除了會改變我們的遊戲、學習、購物、美食、繪本伴讀等場景，更重要的意義，則是讓具身智能機器人、汽車等領域實現全新的人機交互升級。

很多原來做不成的事兒，如今都能接近實現。

不過，單純的語音交互顯然不太過癮，爲此，科大訊飛率先實現了業界首個語義貫穿的「口脣-表情-動作」的超擬人數字人。

首先，自然的情感貫穿，能讓數字人根據上下文實時調整表情，不再是一成不變。

基於大模型的多模態交互技術，直接貫穿了文本、語音、數字人，讓數字人的表情、動作、聲音和情感更統一、更真實。

其次，超擬人數字人並非採用傳統的預設動作，而是採用動態生成動作。

通過解析數字人語音中的情感、韻律以及文本語義信息，ta的軀幹和四肢動作就能與語音內容自然匹配，更符合交互情境。

總之，在這個過程中，虛擬人所有表情動作都是整體化、語義貫穿的，直接由LLM統一了文本、語音和表情跨模態的語義一致性。

另外，系統還具有實時響應能力，訊飛的動作表徵抽取技術，能快速生成數字人的表情和動作，讓交互更流暢。

現場，科大訊飛研究院院長劉聰博士直接來了一段演示。

和他對話的虛擬人，無論是臉上的細微表情，還是時不時眨眼和說話時的動作，已經無限逼近真人。

在劉聰的要求下，ta給現場觀衆賣了個萌，當聽說有幾百萬觀衆正在看自己，更是驚得瞬間睜圓了眼睛。

一句話一張圖，「克隆」20年前的自己

接下來的彩蛋就更有趣了。

在訊飛星火APP的相應助手中，上傳任意一張照片就能快速生成超擬人數字人了。劉聰直接給我們現場演示。

首先，他創建了一個自己的數字分身。

在編輯界面，可以很方便地定義這個「自己」的形象、聲音、人設等等。

頗具亮點的是，在這個過程中我們可以通過「一句話」復刻聲音。目前，科大訊飛已經實現了4.2分的水平。與之對應的，普通人是4.0分，播音員爲5.0分。

不過，劉聰對這個數字分身不太滿意，覺得ta有點滄桑了，於是替換成了一個更年輕版的自己。

現在，他開始和20年前的自己聊天。

兩人探討了現在的大模型技術後，劉聰告訴ta：我是20年後的你，你有什麼問題想問我嗎？

ta問出了藏在心底的那個問題：我每天都追的女同學，到底追到了沒有？

劉聰笑着說：那還用說，她現在是咱家女神了！

話不多說，在訊飛星火APP「新建智能體」裡，上傳一張照片，就可以快速生成超擬人數字人了。

趕緊來體驗吧。

多語言大模型首發，成世界第二選擇

這次大會上，科大訊飛還首發了業界領先的「星火多語言大模型」。

除了中英，還首批支持8個新語種，它們分別是：俄語、日語、阿語、韓語、法語、西語、葡語、德語。

星火多語言大模型整體性能，已經達到了GPT-4o 96%的水平，與去年面世的星火3.0實力相當。

而且部分語種（英語、俄語、日語），在通用能力上甚至超越了GPT-4o。

大模型就像PC、互聯網誕生一樣，它會成爲社會最基本的底層能力，會徹底改變科研範式和產業格局。

如果LLM只會說中文，就只能「封鎖」在國內有效應用中。

在有限的算力下，科大訊飛團隊經過10個月的努力，加大了在多語言模型的研發。不僅提升了算法，還用最小數據量訓出了最優的模型。

語音識別首次實現全國地級市方言全覆蓋

這一突破不僅爲全球提供了「第二種選擇」，更彰顯了中國在人工智能領域的創新能力。

藉助多語言大模型的能力，在訊飛辦公本上，一段日語錄音能夠迅速變成摘要。

來京旅遊的外國遊客，還可以瞭解到豆汁爲什麼難喝，以及北京特產文化特色。

翻譯機不僅是你的翻譯官，還可以成爲你的AI導遊。

今天，星火多語言大模型將以API形式，向全球開發者、所有行業夥伴正式開放。

賦能千行百業，七項第一

大模型底座能力，決定了行業和專業模型能力。

訊飛星火大模型自誕生之初，就確定了「1+N」的戰略佈局，解決千行百業的剛需，助推產業的全面升級。

這次，1024開發者日上，訊飛星火大模型應用再次交卷！

在「賦能科研應用」、「智能汽車市場」、「教育醫療市場」、「大模型開發者生態」、「工業大模型」、「智能硬件市場」、「央國企中標」七大領域中，奪得第一。

賦能科研應用第一

今年諾貝爾獎的兩大獎項，頒給了AI+領域的科學家們，再一次證明了AI能夠變革科研範式，併成爲科技界的共識和夢想。

AI在賦能科研中，需要走向三個臺階：從科研基礎工作提效，到科學任務建模，再到科研方案設計，一步一步躍升。

AI for Science決定了中國科技的發展速度。毋庸置疑，科大訊飛也將AI賦能科研作爲重要使命。

星火科研助手2.0發佈一個月以來，科研調用效率提高了10倍，論文研究有效率和學術寫作採納率提升90%。

這一次，又進一步升級論文預審覈和論文推薦的能力。

還有編程教學應用平臺「馬上」，讓學生主動提問題增加1倍，教師輔導工作量減少了80%。

在真正用AI助力科研攻關中，科大訊飛聯合團隊在生物科技、科學裝置方面，取得了一些成果。

訊飛聯合中科大生命學院團隊打造了蛋白質主鏈設計AI，原來所需6的月時間，大大壓縮到1天！

他們已經設計出48個自然界不存在的全新蛋白質，研究論文刊登Nature子刊。

還有聯合中科院等離子所團隊，用LLM助力托克馬克離子體控制，有望實現高效的人造小太陽。

在化學/化工領域，科學知識推演大模型已經在聯合攻關。

總之，在中國今天賦能AI for Science領域中，科大訊飛是當之無愧的NO.1。

智能汽車市場第一

星火多語言大模型通用底座能力提升同時，已經在汽車、家電、辦公、翻譯等典型領域中，得到切實應用並碾壓了GPT-4o。

在實際應用中，多語種模型在助力中國汽車出海方面發揮了重要作用。

中國出海TOP 10車企中，有8家企業都與科大訊飛達成了合作。出海500多萬輛汽車，多語種技術大多來自科大訊飛。

目前，科大訊飛智能語音交互的裝配量，超過6000萬輛汽車。

大模型和多語言大模型雙層buff加持，汽車變得更加智能了。

你可以用不同語言，讓它幫你打開空調、來首音樂、諮詢實時新聞等等。

另外，科大訊飛還首次發佈了汽車端側星火大模型。以後，開車即便是經過隧道、信號好不區域，也能本地調用大模型能力了。

教育醫療市場第一

科大訊飛一直以來都有一種教育情結——如何讓技術更好地服務每個孩子？

智慧教育20年積累千萬節優秀課例，600億過程性學習數據，5萬所學校、730萬教師、1.23億學生持續應用。

知識能力是基礎，但應用知識的能力更加重要。而且，每位學生基本素養的培養，也是重中之重。

從知識，到能力，再到素養，大模型能夠不斷賦能教育。

這次，訊飛聯合中國教科院首發基於「問題鏈」的高中數學智能教師助手。

它是衆多高中數學優秀教師集體智慧與AI大模型智能的綜合體，是知識與智能雙輪驅動、人師與機師雙向賦能的技術創新，試點應用獲得好評。

在AI醫療方面，訊飛曉醫正成爲每個人的診療助理，健康助手。

而且，星火醫療大模型這次已經升級到了2.0版本，六大醫療核心場景能力重大升級並在業界持續領先GPT-4 Turbo/GPT-4o。

正式發佈訊飛星火醫學影像大模型，可實現各類影像自動質控，支持同一影像多病種識別診斷。

大模型開發者生態第一

一家獨大不是春，唯有生態的繁榮，才能創造AI更廣闊的未來。

目前，訊飛不僅語音語義市佔率第一，大模型開發者規模也是第一。開發者總數超700萬，其中LLM開發者有70多萬。

不僅推進產品開發，訊飛還助力技術落地應用，讓開發者用最快的時間、最短的路徑實現產品成功。

比如，展館中的xbot咖啡機器人，2小時就能完成多模態交互集成。

此外，訊飛還牽頭成立了5億元創業基金，聯合地方政府爲AI創業團隊提供落地支撐。

不僅如此，自主可控也非常重要。

劉慶峰曾表示，「在AI激烈博弈當下，國產大模型底座能力和支撐，決定了能在這條路上走多遠」。

自去年10月，科大訊飛聯合華爲發佈了國內首個全國產算力平臺「飛星一號」以來，繼續深化算力佈局。

基於萬卡級國產算力集羣，全面對標GPT-4 Turbo的訊飛星火V4.0大模型誕生。

這一次，科大訊飛、華爲、合肥市大數據資產運營有限公司三方聯合啓動「飛星二號」打造，進一步探索國產化大模型算力「無人區」。

工業大模型第一

基於星火大模型，目前已經誕生了20+行業大模型。現在，已有300+場景智能體應用，既有通用也有行業專用的。

目前，訊飛在應用場景中，已經形成了可以相互借鑑和複用的規模化效應。

智能硬件市場第一

LLM加持智能硬件方面，訊飛產品矩陣線上線下GMV同比增長50%。

央國企中標第一

目前，星火大模型已經成爲央國企第一選擇。今年大模型中標數、中標金額第一。

這是因爲訊飛爲企業LLM構建了，提供底層規劃到執行落地的全套解決方案。

五大成功密碼，AI未來無限可期

在人工智能發展歷程中，科大訊飛以不斷深耕的創新突破，勾勒出了一幅令人矚目的科技發展畫卷。

通過25年來的探索實踐，他們也逐漸提煉出了AI未來發展的「五大關鍵洞察」：

第一，「頂天」必須做到源頭核心技術創新，底座模型要對標全球做好的，專業模型也要做到全球第一。每一次發佈會，星火大模型性能不斷攀升，與OpenAI最強模型打擂臺。

「立地」是讓LLM實現產業化，在不同場景中走向落地，進入深水區。七項第一，證明了星火大模型應用落地的領先性。

第二，在當前國際格局快速變化之中，只有技術、算力自主可控纔有大未來。

第三，通用模型和專業模型的結合，部署效率更高，專業能力更強。

最後，還有實現端雲聯動、軟硬一體協同發展。

科大訊飛堅信，只要堅持這5個關鍵點，人工智能的未來無限可期，真正實現解放生產力，釋放想象力。

訊飛星火爆震撼大招，七項第一11個首發！年度最逼真虛擬人萌翻全場，多模態搶先GPT-4o

相關資訊