搶先OpenAI!Hume AI發佈第二代情感智能AI,支持自定義語音,在線可玩

智東西編譯 Vendii編輯 漠影

智東西9月19日消息,據VentureBeat今日報道,AI情感創企Hume AI於9月11日發佈了Empathic Voice Interface 2(EVI 2)。

EVI被宣稱爲全球首個具有情商的對話式AI。EVI能夠通過分析用戶的語音,如口音、語氣、語調、擬聲詞、節奏和停頓等,來理解用戶的情緒和心理狀態,並做出實時響應。

與EVI 1相比,新發布的EVI 2的響應延遲減少了40%,且成本降低了30%。此外,新一代EVI還進行了一系列功能增強與更新:語音質量的提高,情商與同理心的增強,支持自定義語音……

Hume AI由前谷歌DeepMind研究員Alan Cowen於2021年創立,他現在擔任該公司的首席執行官兼首席科學家。該公司於今年3月27日完成了5000萬美元的B輪融資。

官網地址:https://www.hume.ai/

一、功能增強:語音質量和情商的提升,還支持自定義語音

EVI 2集成了一個先進的語音生成模型和情感大型語言模型(eLLM),能夠處理和生成文本及音頻。這種多模態方法使得EVI 2生成的語音聽起來更自然,語調更恰當,表現力更高,輸出更連續。

此外,在同一模型中處理語音和語言,使得EVI 2可以更好地理解用戶輸入內容的情感傾向,從而做出相應調整,在內容和語氣方面生成更具有同理心的響應。

除了在語音質量和情商方面的提升,新一代EVI 2還支持用戶自定義語音。開發人員可以設置音調、鼻音和性別等參數,根據特定的應用需求定製EVI 2的語音,比如應用於客服機器人、虛擬AI助手。

EVI 2還支持用戶在交互過程中通過語音提示,動態修改EVI 2的說話風格。例如,“說得更快”、“語調聽起來很興奮”,甚至還可以“進行說唱“。

根據Hume AI的介紹,EVI 2還能夠與其他應用程序、大語言模型進行集成,在客服通話、網頁搜索等功能中使用。

Cowen在上週與VentureBeat的視頻通話中談道:“我們希望開發者能夠將這個模型集成到任何應用中,創建他們想要的品牌語音,並根據他們的用戶需求進行調整,使其品牌語音變得值得信賴且具有個性。”

此外,他透露道,EVI 2並不打算提供語音克隆的功能。

“我們當然可以用我們的模型克隆聲音,但我們沒有提供這一功能,因爲它的風險太高、益處也不清晰。”他解釋道,“人們真正想要的是能夠定製聲音。我們開發了新的語音,讓用戶可以創建不同的個性化語音。相比於克隆特定聲音,開發者似乎對創建新語音更感興趣。”

定製語音功能體驗地址:https://platform.hume.ai/evi/voices

二、性價比提高:響應延遲降低40%,定價降低30%,年底預計能支持更多語言

EVI 2與EVI 1相比,延遲降低了40%,現在平均響應時間在500到800毫秒之間。速度的改進使對話響應更快、更像人類。

EVI 2還有一大亮點是其成本效益的提高。Hume AI將EVI 2的定價降低了約30%,從第一代的每分鐘0.102美元降低到每分鐘0.072美元。企業用戶還可以享受批量折扣。

不過,根據VentureBeat的計算,OpenAI目前提供的文本轉語音服務(非新推出的ChatGPT高級語音模式)要比Hume AI的EVI 2便宜很多。OpenAI的文本轉語音服務每1000字符收費0.015美元(大約每分鐘語音0.015美元),而Hume AI的EVI 2爲每分鐘0.072美元。

EVI 2目前僅支持英語,Hume AI計劃在2024年底之前推出對西班牙語、法語和德語等多種語言的支持。

Cowen向VentureBeat透露道,得益於他們的訓練過程,EVI 2實際上自主學習了多種語言,不需要由工程師進行人爲的訓練。

“我們沒有專門訓練模型輸出某些特定的語言,但它從訓練數據中學會了說法語、西班牙語、德語、波蘭語等多種語言。”Cowen解釋道。

結語:先於競爭對手公開發布,有望搶佔市場

據傳,Hume AI潛在的競爭對手Anthropic正在重新打造其投資方亞馬遜的Alexa語音助手並準備推出。

另一方面,OpenAI在今年5月展示的由GPT-4o模型支持的ChatGPT高級語音模式,目前只對少數用戶開放,在候補名單中的用戶仍需等待。

儘管Hume AI並沒有像OpenAI或Anthropic那樣廣爲人知,但Hume AI已經搶先於它們公開推出了一個人性化語音助手,並且客戶現在就可以立即將其投入使用。這可能爲Hume AI在競爭激烈的市場中搶佔一席之地。

來源:VentureBeat