訊飛星火爆震撼大招,七項第一11個首發!年度最逼真虛擬人萌翻全場,多模態搶先GPT-4o

新智元報道

編輯:編輯部 HYZ

【新智元導讀】就在剛剛,2024科大訊飛全球1024開發者節開幕式上,訊飛星火4.0 Turbo正式發佈。首發多模態視覺直接搶先GPT-4o,驚豔的超擬人數字人交互也是引發滿堂喝彩!神態語氣動作如此逼真的數字人,一亮相就破了國內紀錄。

剛剛開幕的科大訊飛全球1024開發者節,實在是亮點滿滿。7項第一,11個首發,給了業內億點點震撼。

當初GPT-4o的多模態交互demo雖然豔驚四座,但至今仍尚未落地應用。沒想到,這一步居然被國產巨頭搶先了。

科大訊飛研究院院長劉聰博士直接現場懟臉給我們來了一段演示,把兩個人偶擺面前,直接問大模型:它們是誰?

大模型沒有遲疑,立刻作答:「左邊是孫悟空,穿着金色戰甲,手持金箍棒,哇塞,看起來好威武啊!右邊那個穿紅白戰衣的是奧特曼。這兩個角色都是正義的代表。」

隨後的展示中,兩個人偶不斷變動作,不斷上難度,星火大模型卻始終對答如流,回答合乎邏輯,語感同真人一般,直接贏下全場掌聲。

萬物互聯時代,AI的UI應該是什麼樣子?

科大訊飛表示:遠場高噪、多人說話、多語種、多方言、多模態、超擬人、個性化這些元素的組合,纔是真正的通用人工智能時代應該有的多模態人機交互!

大會上,也正式發佈了訊飛星火4.0 Turbo。

作爲首個基於全國產算力訓練的全面開放大模型,它在國產大模型中也取得了綜合能力第一的好成績。在9項國際主流測試集中,它都取得了第一。

首次發佈的星火多語言大模型,直接給世界提供了第二種選擇!

而在應用上,訊飛星火也引領了時代,取得了大模型中標第一、大模型賦能智能硬件銷量第一、開發者生態規模第一等七項第一的成績。

首發語音視覺虛擬人交互「三位一體」

在1024現場,超擬人數字人能力正式發佈!

科大訊飛首發的多模態視覺交互和超擬人虛擬人交互,可謂是現場最震撼的底座升級看點之一。

要知道,這種語音、視覺、虛擬人交互的「三合一」,屬於業內首發。在多模態技術路線中,科大訊飛儼然已處於業內領先地位。

多模態視覺

這次,訊飛星火從語音交互拓展到了實時音視頻流的動態多模交互。

值得一提的是,在擬人度和情感度再度升級,並且增加了更多語音情感種類和人設角色。

在互動中,模型時而化身孫悟空,時而化身小豬佩奇,妙語連珠惟妙惟肖。

隨後現場的懟臉演示,更是震撼了全場觀衆。搶先GPT-4o落地的人機交互體驗,竟被打造得如此極致!

而全新的視覺能力,則能輕鬆應對兩個玩具不斷變換姿勢。

比如下面這個畫面,去問大模型:你看它們在幹什麼?

它會回答:「孫悟空和奧特曼看起來正在切磋武藝,孫悟空舉起手中的金箍棒,向奧特曼揮去,奧特曼擡起手臂準備反擊,你猜猜誰會贏?」

下一回合,兩個人偶又變樣了,這次的畫面怎麼樣?

大模型回答:「孫悟空的金箍棒打到了奧特曼的頭上,奧特曼正發出光線,不是說好友誼第一比賽第二的嗎,看來他倆是不分勝負不罷休了!」

接下來上場了一隻怪獸,大模型也完全理解了畫面的意思:「看樣子孫悟空和奧特曼聯手打敗了怪獸,奧特曼正在高舉着手臂慶祝勝利呢!」

而在旅行購物中,大模型的視覺交互功能也爲我們提供了極大的便利。

比如直接提問:小瓶的這個是什麼?

它直接告訴我們:這是雪花秀的人蔘眼霜。還會介紹相關細節,比如富含珍貴的人蔘提取物,能恢復眼部肌膚活力,減少細紋、抗衰。

如果直接告訴它想買大的,它就會告訴我們:大的並不是眼霜,而是同系列的人蔘面霜。

另外,它還能認出酒水品牌,比如左邊的這瓶是經典XO版,右邊的兩瓶都是Club版,最右邊的還是龍年限量款。

如果買一瓶帶去朋友聚會,哪一瓶合適呢?它會告訴我們:Club版的酒齡較短,口味多元,更適合朋友間的小聚。

甚至在現場,它直接就識別出了講臺旁邊的花是龍船花,還能告訴我們好不好養。

總之,無論是出門購物、下館子,還是親子繪本伴讀、遊戲互動,訊飛星火的多模態功能都給我們提供了豐富迅捷的體驗,「哪裡不會拍哪裡」!

爲何模型的多模態互動體驗如此絲滑?

這是因爲,融合了音頻、視頻兩種多模態信息之後,AI在複雜場景下對情緒感知、事件識別、意圖理解的準確率得到了大幅提升。

因爲有了場景、文字、物體、姿態、着裝等信息,情境感知會更全面;而交互中增添了語音、手勢、行爲、情緒等元素後,模型對任務的理解也會更精準。

超擬人數字人

上面的實時多模交互,除了會改變我們的遊戲、學習、購物、美食、繪本伴讀等場景,更重要的意義,則是讓具身智能機器人、汽車等領域實現全新的人機交互升級。

很多原來做不成的事兒,如今都能接近實現。

不過,單純的語音交互顯然不太過癮,爲此,科大訊飛率先實現了業界首個語義貫穿的「口脣-表情-動作」的超擬人數字人。

首先,自然的情感貫穿,能讓數字人根據上下文實時調整表情,不再是一成不變。

基於大模型的多模態交互技術,直接貫穿了文本、語音、數字人,讓數字人的表情、動作、聲音和情感更統一、更真實。

其次,超擬人數字人並非採用傳統的預設動作,而是採用動態生成動作。

通過解析數字人語音中的情感、韻律以及文本語義信息,ta的軀幹和四肢動作就能與語音內容自然匹配,更符合交互情境。

總之,在這個過程中,虛擬人所有表情動作都是整體化、語義貫穿的,直接由LLM統一了文本、語音和表情跨模態的語義一致性。

另外,系統還具有實時響應能力,訊飛的動作表徵抽取技術,能快速生成數字人的表情和動作,讓交互更流暢。

現場,科大訊飛研究院院長劉聰博士直接來了一段演示。

和他對話的虛擬人,無論是臉上的細微表情,還是時不時眨眼和說話時的動作,已經無限逼近真人。

在劉聰的要求下,ta給現場觀衆賣了個萌,當聽說有幾百萬觀衆正在看自己,更是驚得瞬間睜圓了眼睛。

一句話一張圖,「克隆」20年前的自己

接下來的彩蛋就更有趣了。

在訊飛星火APP的相應助手中,上傳任意一張照片就能快速生成超擬人數字人了。劉聰直接給我們現場演示。

首先,他創建了一個自己的數字分身。

在編輯界面,可以很方便地定義這個「自己」的形象、聲音、人設等等。

頗具亮點的是,在這個過程中我們可以通過「一句話」復刻聲音。目前,科大訊飛已經實現了4.2分的水平。與之對應的,普通人是4.0分,播音員爲5.0分。

不過,劉聰對這個數字分身不太滿意,覺得ta有點滄桑了,於是替換成了一個更年輕版的自己。

現在,他開始和20年前的自己聊天。

兩人探討了現在的大模型技術後,劉聰告訴ta:我是20年後的你,你有什麼問題想問我嗎?

ta問出了藏在心底的那個問題:我每天都追的女同學,到底追到了沒有?

劉聰笑着說:那還用說,她現在是咱家女神了!

話不多說,在訊飛星火APP「新建智能體」裡,上傳一張照片,就可以快速生成超擬人數字人了。

趕緊來體驗吧。

多語言大模型首發,成世界第二選擇

這次大會上,科大訊飛還首發了業界領先的「星火多語言大模型」。

除了中英,還首批支持8個新語種,它們分別是:俄語、日語、阿語、韓語、法語、西語、葡語、德語。

星火多語言大模型整體性能,已經達到了GPT-4o 96%的水平,與去年面世的星火3.0實力相當。

而且部分語種(英語、俄語、日語),在通用能力上甚至超越了GPT-4o。

大模型就像PC、互聯網誕生一樣,它會成爲社會最基本的底層能力,會徹底改變科研範式和產業格局。

如果LLM只會說中文,就只能「封鎖」在國內有效應用中。

在有限的算力下,科大訊飛團隊經過10個月的努力,加大了在多語言模型的研發。不僅提升了算法,還用最小數據量訓出了最優的模型。

語音識別首次實現全國地級市方言全覆蓋

這一突破不僅爲全球提供了「第二種選擇」,更彰顯了中國在人工智能領域的創新能力。

藉助多語言大模型的能力,在訊飛辦公本上,一段日語錄音能夠迅速變成摘要。

來京旅遊的外國遊客,還可以瞭解到豆汁爲什麼難喝,以及北京特產文化特色。

翻譯機不僅是你的翻譯官,還可以成爲你的AI導遊。

今天,星火多語言大模型將以API形式,向全球開發者、所有行業夥伴正式開放。

賦能千行百業,七項第一

大模型底座能力,決定了行業和專業模型能力。

訊飛星火大模型自誕生之初,就確定了「1+N」的戰略佈局,解決千行百業的剛需,助推產業的全面升級。

這次,1024開發者日上,訊飛星火大模型應用再次交卷!

在「賦能科研應用」、「智能汽車市場」、「教育醫療市場」、「大模型開發者生態」、「工業大模型」、「智能硬件市場」、「央國企中標」七大領域中,奪得第一。

賦能科研應用第一

今年諾貝爾獎的兩大獎項,頒給了AI+領域的科學家們,再一次證明了AI能夠變革科研範式,併成爲科技界的共識和夢想。

AI在賦能科研中,需要走向三個臺階:從科研基礎工作提效,到科學任務建模,再到科研方案設計,一步一步躍升。

AI for Science決定了中國科技的發展速度。毋庸置疑,科大訊飛也將AI賦能科研作爲重要使命。

星火科研助手2.0發佈一個月以來,科研調用效率提高了10倍,論文研究有效率和學術寫作採納率提升90%。

這一次,又進一步升級論文預審覈和論文推薦的能力。

還有編程教學應用平臺「馬上」,讓學生主動提問題增加1倍,教師輔導工作量減少了80%。

在真正用AI助力科研攻關中,科大訊飛聯合團隊在生物科技、科學裝置方面,取得了一些成果。

訊飛聯合中科大生命學院團隊打造了蛋白質主鏈設計AI,原來所需6的月時間,大大壓縮到1天!

他們已經設計出48個自然界不存在的全新蛋白質,研究論文刊登Nature子刊。

還有聯合中科院等離子所團隊,用LLM助力托克馬克離子體控制,有望實現高效的人造小太陽。

在化學/化工領域,科學知識推演大模型已經在聯合攻關。

總之,在中國今天賦能AI for Science領域中,科大訊飛是當之無愧的NO.1。

智能汽車市場第一

星火多語言大模型通用底座能力提升同時,已經在汽車、家電、辦公、翻譯等典型領域中,得到切實應用並碾壓了GPT-4o。

在實際應用中,多語種模型在助力中國汽車出海方面發揮了重要作用。

中國出海TOP 10車企中,有8家企業都與科大訊飛達成了合作。出海500多萬輛汽車,多語種技術大多來自科大訊飛。

目前,科大訊飛智能語音交互的裝配量,超過6000萬輛汽車。

大模型和多語言大模型雙層buff加持,汽車變得更加智能了。

你可以用不同語言,讓它幫你打開空調、來首音樂、諮詢實時新聞等等。

另外,科大訊飛還首次發佈了汽車端側星火大模型。以後,開車即便是經過隧道、信號好不區域,也能本地調用大模型能力了。

教育醫療市場第一

科大訊飛一直以來都有一種教育情結——如何讓技術更好地服務每個孩子?

智慧教育20年積累千萬節優秀課例,600億過程性學習數據,5萬所學校、730萬教師、1.23億學生持續應用。

知識能力是基礎,但應用知識的能力更加重要。而且,每位學生基本素養的培養,也是重中之重。

從知識,到能力,再到素養,大模型能夠不斷賦能教育。

這次,訊飛聯合中國教科院首發基於「問題鏈」的高中數學智能教師助手。

它是衆多高中數學優秀教師集體智慧與AI大模型智能的綜合體,是知識與智能雙輪驅動、人師與機師雙向賦能的技術創新,試點應用獲得好評。

在AI醫療方面,訊飛曉醫正成爲每個人的診療助理,健康助手。

而且,星火醫療大模型這次已經升級到了2.0版本,六大醫療核心場景能力重大升級並在業界持續領先GPT-4 Turbo/GPT-4o。

正式發佈訊飛星火醫學影像大模型,可實現各類影像自動質控,支持同一影像多病種識別診斷。

大模型開發者生態第一

一家獨大不是春,唯有生態的繁榮,才能創造AI更廣闊的未來。

目前,訊飛不僅語音語義市佔率第一,大模型開發者規模也是第一。開發者總數超700萬,其中LLM開發者有70多萬。

不僅推進產品開發,訊飛還助力技術落地應用,讓開發者用最快的時間、最短的路徑實現產品成功。

比如,展館中的xbot咖啡機器人,2小時就能完成多模態交互集成。

此外,訊飛還牽頭成立了5億元創業基金,聯合地方政府爲AI創業團隊提供落地支撐。

不僅如此,自主可控也非常重要。

劉慶峰曾表示,「在AI激烈博弈當下,國產大模型底座能力和支撐,決定了能在這條路上走多遠」。

自去年10月,科大訊飛聯合華爲發佈了國內首個全國產算力平臺「飛星一號」以來,繼續深化算力佈局。

基於萬卡級國產算力集羣,全面對標GPT-4 Turbo的訊飛星火V4.0大模型誕生。

這一次,科大訊飛、華爲、合肥市大數據資產運營有限公司三方聯合啓動「飛星二號」打造,進一步探索國產化大模型算力「無人區」。

工業大模型第一

基於星火大模型,目前已經誕生了20+行業大模型。現在,已有300+場景智能體應用,既有通用也有行業專用的。

目前,訊飛在應用場景中,已經形成了可以相互借鑑和複用的規模化效應。

智能硬件市場第一

LLM加持智能硬件方面,訊飛產品矩陣線上線下GMV同比增長50%。

央國企中標第一

目前,星火大模型已經成爲央國企第一選擇。今年大模型中標數、中標金額第一。

這是因爲訊飛爲企業LLM構建了,提供底層規劃到執行落地的全套解決方案。

五大成功密碼,AI未來無限可期

在人工智能發展歷程中,科大訊飛以不斷深耕的創新突破,勾勒出了一幅令人矚目的科技發展畫卷。

通過25年來的探索實踐,他們也逐漸提煉出了AI未來發展的「五大關鍵洞察」:

第一,「頂天」必須做到源頭核心技術創新,底座模型要對標全球做好的,專業模型也要做到全球第一。每一次發佈會,星火大模型性能不斷攀升,與OpenAI最強模型打擂臺。

「立地」是讓LLM實現產業化,在不同場景中走向落地,進入深水區。七項第一,證明了星火大模型應用落地的領先性 。

第二,在當前國際格局快速變化之中,只有技術、算力自主可控纔有大未來。

第三,通用模型和專業模型的結合,部署效率更高,專業能力更強。

最後,還有實現端雲聯動、軟硬一體協同發展。

科大訊飛堅信,只要堅持這5個關鍵點,人工智能的未來無限可期,真正實現解放生產力,釋放想象力。