該讓大模型走出對話框了

題圖|天工AI生成

雖然今年只過去了三分之一,但AI領域的創新和迭代速度,依然會讓不少人發出四郎般的疑問:你還有多少驚喜是“朕”不知道的?

如果說2023年的大模型風暴還集中在“對話”上,那麼,今年AI帶來的億點點震撼,就突破了文字乃至圖像的範疇。

2月中旬,OpenAI發佈的“文生視頻”(text-to-video)的大模型工具Sora直接生成60秒一鏡到底、不同景別流暢切換的視頻,將文生視頻的效果提升數個維度,以至於在demo視頻剛公佈的最初幾天,有人忍不住驚呼“現實世界不存在了”。

3月中旬,Suno團隊發佈的Suno AI V3版本,只要輸入簡單的文字描述,就可以生成兩分鐘以內、不同流派風格的音樂作品,效果驚豔,被稱爲“AI音樂的ChatGPT時刻”。

短短一年,大模型再度快速進化。與上一階段人們熱衷於測試大模型能否理解言外之意、能否編程、能否做數學題不同,大模型的能力維度變得更加豐富多元。這意味着什麼?

AGI,通用人工智能,AI皇冠上的明珠,AI從業人士追尋的理想和目標,通俗地說,AGI的目標是模仿並超越人類的智力水平,但迄今爲止,尚未有現實AGI成果出現,箇中原因便在於,當前的AI無法克服認知模型複雜性這一難題。

人腦是天生的多任務處理器,機器不是。

當下的技術發展,使得人工智能在許多方面已經取得了媲美人類甚至超越人類的成就,例如以AlphaFold和AlphaZero爲代表的專業領域AI,以及文書糾正AI Grammarly,DALL·E 2,Imagen等生圖AI。但它們的強大僅侷限於特定領域。

當人在欣賞一朵顏色豔麗、香味撲鼻、造型華麗的花朵時,大腦會自動將顏色、形狀、氣味等不同維度信息進行綜合處理,這種對人類而言十分簡單的事情,對機器來說是一件難事。如果機器能夠充分理解物理世界不同介質的信息,並進行綜合性的處理,這將是重要突破,也意味着AI能夠更加智能,能處理更加複雜的事情,提供更加有價值的幫助。

大模型在文字、圖片、視頻、語音等方面取得的進展,意義便在於此。

當其他大模型在特定領域內謀求突破時,一位來自中國的選手正在打破模型間的圍牆。4月17日,在「天工」大模型發佈一週年之際,崑崙萬維宣佈,「天工3.0」以及「天工SkyMusic」正式開啓公測。一年時間,從1.0到3.0,天工大模型發生了什麼變化?

根據官方介紹,「天工3.0」是4000億級參數全球最大規模的開源MoE大模型,也是中國首個音樂AIGC SOTA(深度學習專有名詞,指領域內最好的模型)。相較上一代,「天工3.0」在模型語義理解、邏輯推理、以及通用性、泛化性、不確定性知識、學習能力等領域有很大的性能提升,其模型技術知識能力提升超過20%,數學/推理/代碼/文創能力提升超過30%。

而且,「天工3.0」新增了搜索增強、研究模式、調用代碼、繪製圖表、多次調用聯網搜索等能力,集成了AI搜索、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖片生成、AI漫畫創作、AI圖片識別、AI音樂生成、AI代碼寫作、AI表格生成等多項能力,實現了對大模型的多模態突破。

從搜索、查找、定方案,到生成報告、製作表格、製作音樂等等需要使用多個大模型才能完成的多項操作,如今在「天工3.0」可以全部搞定,這無疑能帶來極大的便利。

惠及用戶的同時,「天工3.0」會成爲虛擬世界與物理世界的接口,並充當用戶在虛擬世界的智能管家,「天工3.0」的價值將是平臺級的。

在這個過程中,機器處理來自用戶的各種複雜需求,輸入了更多數據,進行了更多模態的後臺處理,這樣的輸入輸出對於AI變得更加智能,意義重大。

「天工3.0」會的多,但絕不是把一堆功能生硬的粘合在一起,其更底層的支撐,來自於模型能力層的提升。

大模型很強,但用好有門檻。大部分普通用戶沒有代碼開發經驗,更不具備訓練大模型提示詞工程能力,要把大模型調教成趁手的個人AI助理,用戶自己得先花時間好好學習。

針對這一現狀,「天工3.0」深度訓練Agent的能力,針對模型獨立規劃、調用、組合外部工具及信息的能力進行了專項訓練,使其能夠獨立生成並調用代碼,完成包括產業研究、產品橫評、信息分析、圖片生成、圖表繪製等多種複雜用戶需求。

以買車這個日常生活中的典型場景爲例,傳統做法是找到對應車型的介紹,再自己列出不同車型的核心參數進行比較,涉及到很多繁瑣的工作,這件事在「天工3.0」這兒變得特別簡單。

當在搜索框中輸入“特斯拉Model 3和Model Y哪個好”時,「天工3.0」首先會聯網查詢最新信息。

「天工3.0」給出的結果十分令人驚喜,因爲它不僅突破了傳統搜索只給出一堆鏈接、需要用戶自己瀏覽總結的體驗,直接把關鍵信息提煉了出來,更自動生成了兩款車型的對比表格,讓信息一目瞭然,便於用戶查看。無論內容和還是形式都十分貼心到位。

結果出來後,「天工3.0」還進一步細化了提問方向,引導用戶瞭解更加詳細的信息維度,以做好決策。原本需要耗費大量時間做的信息蒐集、整理和對比工作,在「天工3.0」這裡簡化成了一步:提問。

這種便捷體驗的實現,是「天工3.0」多輪內容生成、調用搜索、畫表格等能力在做支撐,底層則源自「天工3.0」深度訓練Agent的能力,讓大模型具有獨立思考的能力,實現每一步都能獨立思考,每一步都能判斷是否調用模式。

判斷一個大模型夠不夠聰明,很重要的一點就是它能不能解決複雜問題,數學與推理能力均提升超過30%的「天工3.0」邏輯推理能力大幅提升。這在天工的搜索研究模式、搜索增強模式中體現尤爲明顯。

比如,正值春天,很多人會有鼻塞打噴嚏的症狀,在搜索增強模式下查詢“春天鼻塞打噴嚏怎麼辦”後,「天工3.0」將這個比較模糊的問題延伸出了具體的原因和方法。

「天工3.0」基於自身的邏輯推理能力,幫用戶的模糊提問釐清了思路,進而輸出了一份信息全面、針對性也很強的回答。給出了不同的可能性,和相應的解決方案,並在最後繼續延展出更加細化的方向,幫助用戶結合自身情況進一步找到更加對症的解決辦法。

「天工3.0」最令人驚豔的部分,莫過於內容創作能力。

其AI圖片生成現在支持多輪修圖和擴圖,從下面的體驗中可以看到,當用戶輸入“兩個小孩在花園裡玩耍”的需求時,「天工3.0」生成了四幅圖片,隨後,增加“加一條小狗”的需求後,「天工3.0」也正確的輸出了有小狗和小孩一起在花園玩耍的畫面。

當輸入“擴展當前圖片”指令後,「天工3.0」在已生成圖片的基礎上,進行了合理擴展,爲畫面增加了花樹前景,令圖片層次更加豐富、氛圍感更足。

而在衆多內容生成能力中,「天工3.0」最令外界期待的,莫過於旗下4月17日開放公測的「天工SkyMusic」音樂大模型,這是國內首個音樂AIGC SOTA模型。

專業術語定義的優秀或許過於抽象,不如先看具體體驗。

將蘇軾經典詞作《水調歌頭》輸入「天工SkyMusic」,很快就生成了三首歌曲,歌曲時長最長爲一分半,有男聲也有女聲。

初次生成的曲風偏現代,進入編輯頁面,使用參考歌曲功能,選擇了《滄海一聲笑》作爲參考歌曲,讓「天工SkyMusic」再次生成,再次生成三首歌曲,曲風產生了明顯的變化。

人聲清晰、吐字標準、曲風有古意,顯然,與其他AI音樂生成大模型相比,「天工SkyMusic」顯然“更適合中國寶寶體質”。

達成這樣的效果並不容易。

AI音樂生成有兩大技術路徑,符號音樂生成路線、大模型音樂音頻生成路線。大模型音樂音頻生成+Song(人聲)可謂難上加難,而「天工SkyMusic」偏偏選了這條路。

對於一首音樂作品而言,人聲是非常重要的元素,最能夠體現生產作品的效果。過去,AI音樂行業大量研究都集中在符號音樂生成技術路線上,並且大多隻能實現無人聲背景音樂(Background Music,BGM)的生成,音樂的質量、效果、審美都遠遠達不到可用水平,產業遲遲未能爆發。

而從測試結果可以明顯感覺到,「天工SkyMusic」的AI人聲中文人聲清晰度、咬字準確,聽感清晰,顯著好於國外產品,達到了業內頂級水平。

這是因爲,與行業主流路徑不同,「天工SkyMusic」採用自研大模型音樂音頻生成技術路線,通過大模型技術實現樂器、人聲、旋律、音量、音符的一體化端到端音樂生成,技術難度極大,全球只有極少數玩家參與,崑崙萬維正是其中之一。

如今大語言模型(LLM)百花齊放的背後,很多開源項目可以被借鑑和參考,但在AI音樂大模型領域,幾乎沒什麼開源資源可借鑑。沒石頭可摸,「天工SkyMusic」踏入湍急的河水中,砸入很多研發資源,摸索出一條路出來。宣佈公測的同時,「天工SkyMusic」公佈技術原理圖——自己把坑踩完後,給行業復現的方案。

據介紹,在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,「天工SkyMusic」在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,並以6.65分的綜合得分超越Suno V3,成爲全球AI音樂SOTA模型。

「天工SkyMusic」還獨創了方言歌曲生成能力,在人聲自然度、發聲可懂度等領域表現優秀,支持粵語、成都話、北京話等衆多方言。

簡單寫了幾句介紹北京特色小吃的歌詞生成歌曲,兒化音倍兒地道。

同時,「天工SkyMusic」能夠生成80秒44100Hz採樣率雙聲道立體聲AI歌曲——這是理論上的CD音質界限,質量很高。「天工SkyMusic」還能根據用戶輸入的歌詞風格生成對應歌曲的風格,創作的易用性和個性化質量也很高。說唱、民謠、放克、古風、電子……不同音樂風格,「天工SkyMusic」都能駕馭。

另外,用戶可以通過歌詞來控制歌曲,讓生成的歌曲可以明確分辨出不同歌詞段落的情緒變化,體現出主歌和副歌、前奏和主歌的段落差異。獨創的參考音樂生成功能,支持用戶上傳自有參考音樂,生成風格、唱腔類似的歌曲,進一步降低音樂大模型的使用門檻,讓不熟悉樂理的用戶也能輕鬆使用。相當內行、專業和貼心。

從遊戲業務起家,到成爲全球平均月活躍用戶近4億、在海外孵化了多款千萬級DAU爆品的企業,崑崙萬維有安享舒適區的資本,但也有成爲巨頭的焦慮。

身爲體量中型的互聯網公司,崑崙萬維始終在尋找第二曲線,期望實現突破,讓公司規模和影響力更上一層樓。AI送來挑戰,也帶來希望。

2020年GPT-3給方漢帶來極大的衝擊。身爲崑崙萬維的管理者,他意識到,AI的高速發展必然會對內容產業帶來顛覆性的改變,“AI的任何一點進步都會導致內容創作的大爆發,這是所有內容廠商必須面對的事實。”

AI對內容生態太重要了。當曾經必須投入重金才能產出的內容,變成只需對AI描述需求就能輸出的產品,內容的生產成本被無限降低,創意的隨機性和不可靠性也被大大壓縮。這只是AI顛覆內容行業的一個維度。

內容產業本就是崑崙萬維的主場,經過數十年發展,崑崙萬維對於內容有深度理解,對變量也極度敏感,這些都讓方漢明確一點:對崑崙萬維而言,AI不得不做、必須要做,不然會被顛覆。

從2020年,崑崙萬維就持續投入AI,2022年底,高管戰略會更是決定要All in。在崑崙萬維眼中,對AGI和AIGC的投入和追求,不是追逐時髦的one more thing,而是必須押上全部資源投入的未來。

戰略上的確定推動着崑崙萬維AI大模型、AI搜索、AI音樂、AI社交、AI遊戲、AI視頻六大業務矩陣的快速落地。

如今,「天工SkyMusic」的發佈爲崑崙萬維發力AI創作者生態提供了可能性,而崑崙萬維在這方面的佈局,也將深刻影響行業的走向。

AI音樂生成大模型並不是音樂產業的破壞者,而是提供了更爲先進的生產工具。就如同火車的發明只是爲了幫助人們更好的出行一樣,「天工SkyMusic」將音樂創作的門檻降低了,普通人的情緒、情感可以通過大模型工具得到更爲廣泛的表達。

比如,任何一個人都可以用「天工SkyMusic」爲古詩詞譜上美妙的旋律,通過更加生動有趣的方式,讓大衆進一步感受到古詩詞的美和韻味,這對於詩詞文化的傳播以及文學教育具有很現實的意義。

在讓不會樂器、不懂樂理但熱愛音樂的普通人,可以無懼不懂樂理、缺乏能力,也能創作出屬於自己的音樂後,具備內容生產能力的羣體基數變大,文娛內容生產的成本自然會變低。崑崙萬維董事長兼CEO方漢便曾透露,根據崑崙萬維的觀察,當內容創作的門檻下降一半的時候,內容創作者的人數就會翻倍。

而創作門檻的降低,更蘊藏着文化平權的深刻價值。

方漢觀察到,在非洲等經濟相對落後的國家和地區,當地生產力太落後,因此沒有能力製作好的電影作品來跟強勢歐美文化抗衡。而歐美文化能夠在全球流行,本質上是做了大投入來創作好內容,達到強勢壟斷。

“當AIGC技術進化後,全世界所有人都可以低成本創作從音樂到小說,從漫畫到影視的內容。每一個小語種都會更容易創作出屬於自己的文化,這個實際上就是打破壟斷的文化平權。”

對崑崙萬維而言,從實際利益出發,AIGC賦予了人人平等的創作權利,小族羣也能創作更多優質內容,這是一個藍海市場,“在商言商,我們希望在這方面做出我們的差異化競爭”。更重要的是,當主流AIGC產品都以英文爲主,中文效果相對沒那麼好,方言更不支持時,國產AIGC產品的崛起,也爲文化的傳承和傳播提供了一層保護。

儘管「天工SkyMusic」目前仍在起步階段,但已經讓很多用戶感受到了音樂創作的樂趣。未來隨着持續優化完善,爲打造一個專業且易用的全民音樂創作平臺。這或許會促進更爲豐富多樣的音樂內容的產生,並在未來對產業的生產方式帶來新的變革。其價值,不會侷限於商業領域。作爲中國首個音樂AIGC大模型,「天工SkyMusic」率先轉動了變革的旋鈕。

本內容爲作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯繫 hezuo@huxiu.com