☰

語音AI賽道全解析：市場規模超 50 億，最有機會的場景在哪裡？

「未來，消費者更可能傾向於與 AI 溝通，而非人工客服，因爲這將成爲解決問題的最高效途徑。」

這篇來自 Bessemer Venture Partners 的報告，是目前爲止對語音 AI 在企業應用上最完整清晰的一次梳理。

核心要點：

儘管市場規模超過 50 億美元，傳統的電話客服系統卻備受企業和消費者詬病。

過去一年，語音 AI 在研究、基礎設施和應用方面取得了顯著進展，推動了語音應用開發的熱潮。

語音到語音模型無需音頻轉錄即可處理語音任務，實現了低延遲、更擬人等突破性進展。

企業傾向於從低風險場景開始嘗試語音 AI，但高價值場景對可靠性要求更高。

語音 AI 開發者更關注業務邏輯和客戶體驗，而非底層基礎設施和模型管理。

許多公司推出平臺和套件，簡化了語音智能體的構建、測試、部署和監控。

最具影響力的語音 AI 應用，需要深度集成到特定行業工作流程中。報告認爲，目前最有機會的應用場景包括：

轉錄：會議記錄、對話總結及行動建議。

呼入：預約安排、線索轉化、客戶成功管理。

呼出與篩選：招聘候選人篩選、預約確認。

培訓：銷售/面試培訓模擬。

談判：採購、賬單糾紛、保險理賠。

想象一下：你的航班剛剛取消，你被滯留在機場登機口，焦急地撥打航空公司客服電話，卻只聽到冷冰冰的自動回覆：「由於話務繁忙，您的等待時間將比平時更長」。你被困在無盡的語音菜單中，每一個選項都與你的需求不符，只能一遍遍地重複「轉人工服務」。好不容易接通人工客服，卻又被轉接，被迫再次向另一位客服解釋你的困境。時間一分一秒地流逝，你卻寸步難行，無法重新預訂航班或解決問題，機場酒店過夜的陰影也越來越濃重。

這是一場令人沮喪、代價高昂的旅行噩夢，想必很多人都有過類似的經歷。

現在，讓我們換個場景：你撥打航空公司的客服電話，迎接你的不再是無盡的等待、機械的語音提示或繁瑣的選項，而是一位能夠立即理解你困境的 AI 助手。它精準識別你航班取消的情況，並根據你的個人偏好推薦最佳的替代方案，同時幫你完成重新預訂——所有流程都如同與真人對話般自然流暢。這只是語音 AI 技術應用於我們熟知問題的一個例子。正如大多數變革性技術一樣，語音 AI 最具吸引力的應用場景尚未完全展現，因爲在人工智能出現之前，這些場景根本無法實現。

隨着語音技術棧各個層面的不斷進步，語音 AI 解決方案終於能夠實現近乎人類水平的對話，提供個性化的客戶體驗，並具備無限擴展的能力，輕鬆應對一天中任何時段的需求高峰。那些令人抓狂的機械式交互即將成爲過去。未來，消費者甚至可能更傾向於與 AI 智能體溝通，而非人工客服，因爲這將成爲解決問題的最高效途徑。

語音 AI 不僅僅是對軟件用戶界面的升級，它更將徹底改變企業與客戶的溝通方式。語音原生 AI 模型與多模態功能的融合，賦予了語音 AI 變革那些高度依賴人際溝通的行業的力量。我們相信，投資語音 AI 將開啓商業通訊的新紀元，使企業能夠滿足客戶日益增長的期望，同時實現更高效的業務拓展。

01巨大的語音市場：62% 的電話被漏接了

人類天生喜愛交談，每天進行着海量的對話，撥打着數百億次電話。儘管短信、電子郵件和社交媒體等其他通訊方式日益普及，但電話仍然是大多數企業不可或缺的溝通工具。在醫療保健、法律服務、家庭服務、保險、物流等衆多行業中，企業依靠電話溝通來更有效地傳達複雜信息、提供個性化服務和建議、處理高價值交易，並滿足緊急和時間敏感的需求。

然而，大量的來電卻無人接聽。例如，中小型企業平均漏接 62% (https://411locals.us/small-business-owners-dont-answer-62-of-phone-calls/) 的來電，從而錯失了寶貴的商機，無法充分滿足客戶需求。當前的通訊系統存在諸多效率低下的問題：下班後無人接聽只能轉到語音信箱、人工服務一次只能處理一個電話、服務質量參差不齊——這些都導致了過長的等待時間、下班後的延誤以及糟糕的客戶體驗。儘管企業在大型呼叫中心或傳統的自動化系統上投入巨資，卻仍然難以突破這些根本性的侷限。

過去，提升電話溝通效率的科技嘗試往往收效甚微。回想一下我們致電航空公司的經歷：客戶常常在複雜的 IVR（Interactive Voice Response，交互式語音應答）系統中迷失，而這項技術早在 20 世紀 70 年代就已出現。IVR 系統通過自動語音提示，例如「按 1 重新預訂」或「請簡述您的來電目的」，引導用戶操作。儘管這項技術的初衷是爲了自動化呼叫處理，但其僵化的架構只能處理預設指令，無法真正理解用戶來電的意圖和緊急程度。市場對更先進的語音自動化技術的需求日益增長。然而，受限於技術能力，企業難以構建高效、用戶友好的語音產品，有效解決客戶問題。

02爲什麼現在是建立語音功能的時候了？

爲了更好地理解語音交互技術爲何正處於關鍵轉折點，我們將回顧其發展歷程。

首先是上文提到的 IVR 系統。儘管目前 IVR 市場規模仍超過 50 億美元，但它卻飽受企業和消費者詬病。

得益於 ASR（Automatic Speech Recognition，自動語音識別）軟件，也稱 STT（Speech-to-Text，語音轉文本）模型的進步，語音領域迎來了第二波創新浪潮，其核心是語音轉錄，讓機器能夠實時地將語音轉換成文本。過去十年間，隨着 ASR 的性能逼近人類水平，一批新公司應運而生，例如 Gong(https://www.gong.io) 和我們投資組合中的 Rev(https://www.rev.com)。OpenAI 於 2022 年底發佈的開源 Whisper 模型，進一步推動了 ASR/STT 的發展，並助力構建更自然的對話系統，使其能夠處理自然語言，而非僵化的菜單選項。儘管取得了這些進步，ASR 在處理口音、背景噪音以及理解語氣、幽默、情感等方面依然存在挑戰。

過去一年，語音 AI 領域在研究、基礎設施和應用層面都經歷了變革性的飛躍。

語音生成技術突飛猛進，像 ElevenLabs 這樣的公司重新定義了 TTS（Text-To-Speech，文本轉語音）技術，構建的模型能夠生成帶有前所未有情感細節的聲音，使 AI 語音更加自然逼真。谷歌推出的 Gemini 1.5 引入了多模態搜索，將語音、文本和視覺輸入結合起來，打造更豐富的用戶體驗。隨後，OpenAI 的語音引擎進一步提升了語音識別技術，其生成的語音非常接近自然對話。然而，最具突破性的進展當屬 GPT-4 Turbo 的發佈，這是一個能夠跨音頻、視覺和文本進行實時推理的模型。這標誌着語音 AI 的巨大飛躍，展現了 AI 理解和處理人類語音，並在多模態下進行深度智能響應的能力。

這些創新帶來了兩大發展：

首先，高質量的對話語音多層級模型層出不窮，激發了衆多開發者投身語音應用的開發浪潮。傳統語音 AI 應用通常採用「級聯」架構：首先利用 STT 模型將語音轉錄成文本，再由 LLM 處理文本生成響應，最後通過 TTS 模型將響應轉換成語音輸出。

然而，這種級聯架構存在兩大缺陷：延遲和非文本上下文信息的丟失。

延遲是影響用戶體驗的關鍵因素，特別是當延遲超過 1000 毫秒時，因爲人類語音的典型延遲在 200 到 500 毫秒之間。去年，GPT-4 Turbo 等模型的發佈顯著降低了延遲。儘管如此，開發者仍需投入大量工程精力來優化應用，以接近人類水平的延遲。

此外，從音頻到文本的轉換過程中，情感和上下文線索常常會丟失，而且由於僵化的、基於回合的交互結構，這些系統難以處理打斷或重疊的語音。幸運的是，STT、LLM 和 TTS 等技術正快速發展，性能日趨接近。不同模型在延遲、表現力和函數調用等方面各有優勢，開發者可以根據具體應用場景選擇合適的模型。

其次，STS（Speech-To-Speech，語音到語音）模型的興起帶來了突破性進展。這些模型專爲處理基於語音的任務而設計，無需將音頻轉錄成文本。它們有效解決了傳統級聯架構的主要侷限性，特別是延遲和對話動態問題。與以往的模型不同，語音原生模型直接處理原始音頻輸入和輸出，帶來了顯著的改進：

超低延遲：響應時間約爲 300 毫秒，接近人類自然對話的延遲水平。

更強的上下文理解：這些模型能夠保留對話早期信息，理解口語背後的意圖（即使措辭多變或複雜），並有效識別多個說話者，保持對話的連貫性。

更豐富的情感和語調感知：能夠捕捉說話者的情感、語調和情緒，並將這些細微差別融入模型的響應中，使交互更流暢自然。

實時語音活動檢測：這些模型能夠在用戶說話時進行監聽，這意味着用戶可以隨時打斷。相比依賴僵化輪流機制的級聯應用（用戶必須等待智能體說完才能發言），這是一項重大進步，爲用戶提供了更自然、更高效的體驗。

語音原生模型代表了對話式語音的未來。

除 OpenAI 最新發布的 Realtime API（通過 GPT-4 Turbo 支持 STS 交互）外，衆多公司、開源項目和研究計劃也都在積極推動這一新興 STS 範式的發展。例如 Kyutai (https://kyutai.org) 的開源模型 Moshi，阿里巴巴 (https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf) 的兩個開源基礎語音模型 SenseVoice 和 CosyVoice（編者注：此處有誤，雖然效果很好，但 SenseVoice 和 Cosyvoice 仍然是 ASR 和 TTS），以及 Hume(https://x.com/hume_ai/status/1833906262351974483) 的語音到語音模型 Empathetic Voice Interface。

03落地的主要挑戰：質量、信任度和可靠性

企業採用語音智能體的最大障礙在於質量、信任度和可靠性。這部分源於客戶對傳統 IVR 系統糟糕體驗的負面印象，也因爲許多現代 AI 語音智能體在更廣泛的應用場景中仍有待提高可靠性。大多數企業最初會在低風險場景下試水語音智能體，但一旦轉向高價值應用，對可靠性的要求就會顯著提升。

例如，一家小型屋頂公司或許願意在非工作時間，作爲備選方案，使用語音智能體接聽電話。然而，由於每個客戶來電都可能帶來高達 3 萬美元的項目，這類企業對於將語音智能體設爲主要接聽方式會更加謹慎。畢竟，客戶對於人工智能在關鍵時刻的失誤容忍度很低，任何差錯都可能導致失去寶貴的潛在客戶。

用戶對語音 AI 智能體的抱怨通常集中在性能可靠性上。這涵蓋了各種問題，例如通話中斷、智能體出現「幻覺」、延遲過高，以及最終導致客戶感到沮喪並掛斷電話。值得慶幸的是，語音 AI 技術正在這些方面持續改進。一些開發者平臺致力於提供更可靠的基礎架構，重點優化延遲，並能從容處理故障而不中斷對話。對話協調平臺則有助於構建清晰的對話流程，從而最大限度地減少智能體「幻覺」的現象，並引導智能體與客戶進行有效溝通。

04語音 AI 市場全景圖

從基礎模型和核心語音基礎設施，到開發者平臺以及垂直應用，我們見證了各個層級的創新。我們期待支持創始人在語音 AI 領域構建全方位的解決方案，並對以下幾個關鍵領域尤爲感到振奮：

模型

基礎模型提供商正在開發支持各種語音驅動應用的技術。目前的供應商主要關注的是爲級聯架構（如 SST、LLM 和 TTS）設計專用技能。然而，語音 AI 的未來顯然在於多模態或語音原生模型，這些模型能夠直接處理音頻，而無需在文本和音頻之間進行轉換。

新一代語音 AI 公司正在利用新型架構和多模態功能開闢新天地。例如，像 Cartesia (https://docs.cartesia.ai/get-started/overview) 這樣的公司正在使用 SSM（State Space Models，狀態空間模型）引領架構創新。我們預計基礎模型將獲得全面提升，尤其期待看到更小型模型的開發，這些模型能夠處理簡單的對話交互，而無需依賴最強大的模型。將不太複雜的任務分流到小型模型將有助於降低延遲和成本。

開發者平臺

雖然底層模型在延遲、成本和上下文窗口方面取得了顯著進步，但構建語音智能體和管理實時語音基礎設施對開發者來說仍然極具挑戰性。爲此，一系列專注於語音的開發者平臺應運而生，旨在幫助開發者簡化大部分複雜流程。這些開發者工具可以幫助解決幾個核心挑戰，包括：

優化延遲和可靠性：維護實時語音智能體所需的可擴展且高性能的基礎設施是一項繁重的任務，通常需要專門的工程團隊進行大規模管理。

管理對話線索、背景噪聲和非文本上下文：許多 STT 模型難以準確判斷用戶何時結束講話，因此開發者通常需要自行構建「終點」檢測機制。此外，開發者通常需要強化現有模型提供的背景噪聲過濾以及情感和情緒檢測等功能。這些看似細微的功能對於提升通話質量至關重要，它們能夠彌合演示效果與客戶在生產環境中的更高期望之間的差距。

高效的錯誤處理和重試：語音模型 API 偶爾出現故障，導致對話戛然而止的情況仍然很常見。要在這種不可靠的基礎架構之上構建可靠的應用，關鍵在於快速識別失敗的 API 調用，通過在對話中插入填充詞來爭取時間，並向另一個模型重試 API 調用，而這一切都需要以驚人的速度完成。

與第三方系統集成並支持檢索增強生成（RAG）：大多數實際應用場景都需要訪問知識庫並與第三方系統集成，以便提供更智能的回覆並代表用戶執行操作。將這些功能以低延遲且自然的方式融入對話系統中是一項巨大的挑戰。

對話流程控制：流程控制機制賦予開發者定義明確的對話流程的能力，使其能夠更精準地引導對話，而不僅僅是依賴模型提示。在敏感或受監管的對話場景中，例如醫療保健領域的語音交互，流程控制至關重要。在這種情況下，語音助手必須先驗證患者身份，然後才能繼續後續對話。

可觀察性、分析和測試：語音智能體的可觀察性和測試在許多方面仍處於起步階段，開發人員正在尋找更好的方法來評估其在開發和生產中的性能，並在理想情況下對多個智能體進行 A/B 測試。此外，在生產中大規模跟蹤這些智能體的對話質量和性能仍然是一項重大挑戰。

大多數語音智能體開發者更希望專注於構建產品獨特的業務邏輯和客戶體驗，而不是管理應對上述挑戰所需的基礎設施和模型。因此，許多公司推出了編排套件和平臺，以簡化開發者和/或業務用戶構建、測試、部署和監控自動化語音智能體的流程。

例如，Vapi (https://vapi.ai) 抽象化了語音基礎設施的複雜性，併爲企業和自助服務客戶提供了快速構建高質量、可靠語音智能體的工具。（編者注：TEN Framework(https://www.theten.ai) 也是這樣的一個實時多模態 AI 框架，它爲複雜的音視頻 AI 應用提供高性能、低延遲的解決方案。)

應用

最後，應用層的公司正在爲各種用例開發基於語音的自動化產品。我們尤其對以下應用場景感到興奮：

端到端地爲客戶「完成工作」，處理完整的功能並提供有價值的結果；

利用 AI 的按需擴展能力，例如在高峰時段同時處理數千個呼叫；

構建高度專業化、專注於特定垂直領域的解決方案，並與相關的第三方系統深度集成。

這些功能使語音應用能夠獲得較高的 ACV（年度合同價值），尤其是在創收場景中使用或顯著降低成本時。此外，我們觀察到，語音 AI 產品正在爲以往技術投入不多的客戶羣體創造新的技術預算，從而顯著擴展了總目標市場（TAM），將原本被風險投資公司認爲規模過小的市場也納入其中。

然而，語音應用的質量至關重要。雖然引人注目的演示可以輕鬆吸引客戶，但持續提供高質量、可靠的服務纔是留住客戶的關鍵——這知易行難。打造高質量的產品需要恰當結合模型、集成、對話流程和錯誤處理，從而構建一個能夠高效解決用戶問題且穩定可靠的智能體。對高質量的極致追求不僅是客戶滿意度的基石，更能提升產品的競爭壁壘。

我們已經確定了語音 AI 在應用層的幾個功能機會。這些功能包括轉錄（如做筆記、根據對話建議後續行動）、呼入呼叫（如預約、成交熱線索、管理客戶成功率）、呼出呼叫和篩選（如尋找和篩選招聘候選人、預約確認）、培訓（如銷售或面試培訓的單人模式）和談判（如採購談判、賬單糾紛、保險單談判）。

我們很榮幸能夠支持引領語音 AI 第一波浪潮的佼佼者，他們目前主要專注於轉錄應用。我們對 Abridge(https://www.abridge.com)、Rilla(https://www.rilla.com) 和 Rev (https://www.rev.com) 的投資充分體現了這一點。

第二波語音 AI 浪潮中，我們看到企業正在將完全對話式的語音應用擴展到更廣泛的用例和行業。Sameday AI (https://www.gosameday.com/) 就是一個很好的例子，它爲家庭服務行業提供定製化的呼入電話解決方案，並部署了 AI 銷售智能體。例如，如果一位房主的暖通空調系統出現故障，需要緊急維修並致電承包商，AI 智能體可以接聽電話、根據問題提供報價、處理協商、在客戶的系統中安排技術人員上門服務、接受付款，最終將原本可能錯失的商機轉化爲訂單。

在外呼領域，Wayfaster (https://www.wayfaster.com) 等公司通過與求職者跟蹤系統集成，自動撥打初步篩選電話，從而使招聘人員的部分面試流程自動化。這樣，招聘人員只需花費人力團隊所需的一小部分時間，就能篩選出數百名候選人，並將更多的精力集中在與最優秀的候選人達成合作上。

語音智能體也越來越有能力處理跨越多種模式的複雜任務。例如，一些公司正在幫助醫療機構使用語音智能體與承保人進行保險談判，利用 LLMs 篩選成千上萬份保險文件和患者記錄，並利用這些結果與保險智能體進行實時談判。

05我們會投資哪些語音 AI 產品？

底層模型的迅猛發展，爲開發者平臺和應用層帶來了前所未有的創業機遇。模型迭代速度的提升使創業者能夠快速構建有效的最小可行產品（MVP），以較低的成本快速測試和迭代產品價值主張。這預示着語音 AI 生態系統正迎來一個蓬勃發展的時代。

雖然我們的語音 AI 論述與我們爲投資垂直人工智能企業而開發的框架(https://www.bvp.com/atlas/part-ii-multimodal-capabilities-unlock-new-opportunities-in-vertical-ai) 基本一致，但我們仍希望強調一些語音解決方案特有的關鍵細微差別。我們尤其強調語音智能體質量的重要性。開發一個引人注目的演示並不難，但要從演示轉變爲生產級產品，就需要深入瞭解行業和客戶的具體痛點，並具備解決各種工程挑戰的能力。最終，我們相信智能體質量和執行速度將成爲該類別產品成功的決定性因素。

以下是我們在該領域構建語音 AI 的具體原則：

1. 最有影響力的語音 AI 應用是那些深度嵌入特定行業工作流的解決方案。

這種高度專注讓企業可以根據行業特定的術語和對話模式定製語音智能體，並實現與第三方系統的深度集成，使其能夠代表用戶執行操作。例如，汽車經銷商的語音智能體可以與 CRM 系統集成，利用過往客戶互動數據來提升服務並加速部署。此外，結合語音和其他交互模式的應用可以自動化通常由人工處理的複雜、多步驟流程，從而進一步增強企業的競爭優勢。

2. 通過強大的工程設計提供卓越的產品質量。

雖然爲黑客馬拉松構建令人興奮的語音智能體演示可能相對簡單，但真正的挑戰在於創建高度可靠、可擴展並能夠處理各種邊緣情況的應用程序。企業需要穩定的性能、低延遲以及與現有系統的無縫集成。創始人應專注於設計能夠處理真實世界語音輸入的不可預測性、確保安全性並保持高正常運行時間的系統。這不僅僅是功能的問題，而是要建立一個基礎，確保彈性、可靠性和適應性，將頂級語音 AI 應用與簡單的原型區分開來。

3. 打造卓越的產品質量依賴於強大的工程設計。

儘管爲黑客馬拉松開發引人注目的語音智能體演示相對容易，但構建真正穩定可靠、可擴展且能處理各種邊緣情況的應用則極具挑戰性。企業級應用需要穩定的性能、低延遲以及與現有系統的無縫集成。創始人應該專注於設計能夠應對真實語音輸入中各種不確定性的系統，同時確保安全性和高可用性。這不僅僅關乎功能實現，更在於構建一個兼具彈性、可靠性和適應性的基礎架構，從而將頂尖的語音 AI 應用與簡單的原型區分開來。

4. 平衡增長與用戶留存率和產品質量等關鍵績效指標。

語音智能體可以賦能銷售等直接驅動收入的功能，許多語音應用公司也正因爲客戶對提升 GTM 能力的需求而經歷快速高效的增長。

產品衡量標準

通話質量和可靠性至關重要，因爲語音智能體出現故障會導致用戶不滿，甚至轉向競爭對手。創始人應該優先關注反映產品質量的關鍵數據指標，例如：

客戶流失率：客戶流失率是衡量產品質量的一個重要指標，儘管它是一個滯後指標。我們觀察到許多語音應用公司，尤其是在早期階段，都在努力應對高客戶流失率的挑戰。這通常發生在客戶將重要的工作流程從人工操作轉移到智能體後，卻發現智能體無法提供可靠且一致的用戶體驗，最終導致客戶流失。

自助解決率：更高的自助解決率表明語音智能體能夠更有效地獨立解決最終用戶的問題，而無需人工干預。

客戶滿意度得分：這項指標反映了客戶與語音智能體交互後的整體滿意度，能夠深入揭示用戶體驗的質量。

呼叫終止率：較高的呼叫終止率通常意味着用戶體驗不佳且問題未得到解決，這表明語音智能體的性能可能存在不足。

同期羣用戶呼叫量增長：該指標衡量每一批用戶（同期羣）在一段時間內使用語音智能體的頻率是否有所增長，這可以有效反映產品價值和用戶粘性。

轉載原創文章請添加微信：founderparker

語音AI賽道全解析：市場規模超 50 億，最有機會的場景在哪裡？

相關資訊