把3B端側大模型裝進手機,vivo還發布了適配手機的智能體丨最前線

作者丨邱曉芬

編輯丨蘇建勳

10月10日,2024 vivo開發者大會(ODC)在深圳國際會展中心舉辦。此次,vivo秀出了他們在大模型上的全新進展。

最近兩年的vivo開發者大會上,AI一直佔據了最大的篇幅——vivo AI全球研究院院長周圍向36氪在內的媒體表示,投入AI的6年來,vivo在AI方面的投入,累計超過230億元。

在去年開發者大會上,vivo發佈了自研十億、百億、千億三個參數量級、由5款語言大模型組成的藍心大模型矩陣。如果說,去年vivo在大模型上更追求“大而全”,經過一年的沉澱,vivo今年在AI上的戰略,更追求AI落地、以及與實際場景的結合。

藍心大模型矩陣

端側大模型與手機場景天然匹配,是這次開發者大會AI部分的重點。此次,vivo發佈了30億參數量級的藍心端側大模型(下稱“藍心3B”)——而此前,手機廠商基本上在卷6B、7B參數量的模型。

周圍表示,過去行業對於大模型量級有着尺寸上限的執着追求。不過,過度追求端側大參數並無意義,在手機有限的空間裡,反而擠佔內存和電量,也起不到什麼作用。而vivo團隊發現,3B的模型纔是最適合手機端側應用的參數量。

根據介紹,在對話寫作、摘要總結、信息抽取等能力上,“藍心3B”幾乎可比肩行業7B-9B模型。vivo方面給出了一系列參數對比——相比藍心7B,藍心3B性能提升了300%、功耗優化達46%、內存佔用僅1.4GB。

不過,vivo的“藍心大模型矩陣”不僅僅只有端側大模型,vivo此次也公佈了他們其他類型的大模型(語音、圖像、多模態)的升級。

比如,vivo如今全新的語言大模型,是基於千億級的雲端大模型,此次vivo重點優化了意圖理解和任務規劃能力,相比去年,整體能力提升30%;

vivo全新的藍心語音大模型,則強化了準確理解自然語義,模擬人聲的能力;

vivo的藍心圖像大模型,今年則着重強化了東方美學和中國特色;

藍心多模態大模型,則升級了其視覺感知理解能力。

周圍表示,目前雲端大模型在手機上的調用,成本已經下降至“不到一分錢一次”。

降本,不僅僅源於雲端成本下降,也由於vivo持續推進大規模端側普及,“今年我們有十幾個、數十個功能都端側化了,以後可能閒聊、識別、決策、執行全部都端側化了”。

截至目前,vivo的AI能力已覆蓋全球60多個國家和地區,服務超過5億手機用戶,大模型token輸出量超過了3萬億個。

不過,種種大模型升級,打好了底層技術設施,而要讓用戶感知到,還需要進一步產品化。在此次開發者大會上, vivo基於藍心大模型技術,在手機上探索落地了“PhoneGPT”手機智能體。

PhoneGPT

從演示中,這一智能體重構了用戶與手機的交互方式。比如,基於vivo的語音交互“藍心小V”,用戶可以對屏幕界面進行識別操作,直接接管音頻進行自主對話,以完成用戶交代的任務,例如幫助用戶去訂餐廳、訂咖啡等等。

AI在手機上的實現,離不開強大操作系統的支撐,vivo也在以藍心大模型爲基礎技術底座,探索AI與OS的深度融合。此次開發者大會上,vivo推出新一代操作系統“原系統5”(OriginOS 5)。

周圍表示,操作系統的重構包括,重構完整的交互、數字服務體驗。

在交互體驗上,基於“原系統 5”,用戶可以用一按一複製、一按一拖拽,滿足用戶的多任務需求。此外,系統還支持全新的語音,比如苗家、壯族的方言等等。

在重構數字服務體驗方面,在藍心多模態大模型技術的加持下,vivo全新推出小V圈搜功能。

據vivo方面介紹,在既有的文本搜索基礎上,通過圖像識別與圈選交互的結合,精準搜索對象,提供更便捷的“一圈即搜”。

原系統5還全新升級了“原子島”功能,除通知功能外,“藍心小V”的意圖識別能力,可以分析、判斷用戶當前的需求,主動爲用戶提供後項服務。

end