☰

該讓大模型走出對話框了

題圖｜天工AI生成

雖然今年只過去了三分之一，但AI領域的創新和迭代速度，依然會讓不少人發出四郎般的疑問：你還有多少驚喜是“朕”不知道的？

如果說2023年的大模型風暴還集中在“對話”上，那麼，今年AI帶來的億點點震撼，就突破了文字乃至圖像的範疇。

2月中旬，OpenAI發佈的“文生視頻”（text-to-video）的大模型工具Sora直接生成60秒一鏡到底、不同景別流暢切換的視頻，將文生視頻的效果提升數個維度，以至於在demo視頻剛公佈的最初幾天，有人忍不住驚呼“現實世界不存在了”。

3月中旬，Suno團隊發佈的Suno AI V3版本，只要輸入簡單的文字描述，就可以生成兩分鐘以內、不同流派風格的音樂作品，效果驚豔，被稱爲“AI音樂的ChatGPT時刻”。

短短一年，大模型再度快速進化。與上一階段人們熱衷於測試大模型能否理解言外之意、能否編程、能否做數學題不同，大模型的能力維度變得更加豐富多元。這意味着什麼？

AGI，通用人工智能，AI皇冠上的明珠，AI從業人士追尋的理想和目標，通俗地說，AGI的目標是模仿並超越人類的智力水平，但迄今爲止，尚未有現實AGI成果出現，箇中原因便在於，當前的AI無法克服認知模型複雜性這一難題。

人腦是天生的多任務處理器，機器不是。

當下的技術發展，使得人工智能在許多方面已經取得了媲美人類甚至超越人類的成就，例如以AlphaFold和AlphaZero爲代表的專業領域AI，以及文書糾正AI Grammarly，DALL·E 2，Imagen等生圖AI。但它們的強大僅侷限於特定領域。

當人在欣賞一朵顏色豔麗、香味撲鼻、造型華麗的花朵時，大腦會自動將顏色、形狀、氣味等不同維度信息進行綜合處理，這種對人類而言十分簡單的事情，對機器來說是一件難事。如果機器能夠充分理解物理世界不同介質的信息，並進行綜合性的處理，這將是重要突破，也意味着AI能夠更加智能，能處理更加複雜的事情，提供更加有價值的幫助。

大模型在文字、圖片、視頻、語音等方面取得的進展，意義便在於此。

當其他大模型在特定領域內謀求突破時，一位來自中國的選手正在打破模型間的圍牆。4月17日，在「天工」大模型發佈一週年之際，崑崙萬維宣佈，「天工3.0」以及「天工SkyMusic」正式開啓公測。一年時間，從1.0到3.0，天工大模型發生了什麼變化？

根據官方介紹，「天工3.0」是4000億級參數全球最大規模的開源MoE大模型，也是中國首個音樂AIGC SOTA（深度學習專有名詞，指領域內最好的模型）。相較上一代，「天工3.0」在模型語義理解、邏輯推理、以及通用性、泛化性、不確定性知識、學習能力等領域有很大的性能提升，其模型技術知識能力提升超過20%，數學/推理/代碼/文創能力提升超過30%。

而且，「天工3.0」新增了搜索增強、研究模式、調用代碼、繪製圖表、多次調用聯網搜索等能力，集成了AI搜索、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖片生成、AI漫畫創作、AI圖片識別、AI音樂生成、AI代碼寫作、AI表格生成等多項能力，實現了對大模型的多模態突破。

從搜索、查找、定方案，到生成報告、製作表格、製作音樂等等需要使用多個大模型才能完成的多項操作，如今在「天工3.0」可以全部搞定，這無疑能帶來極大的便利。

惠及用戶的同時，「天工3.0」會成爲虛擬世界與物理世界的接口，並充當用戶在虛擬世界的智能管家，「天工3.0」的價值將是平臺級的。

在這個過程中，機器處理來自用戶的各種複雜需求，輸入了更多數據，進行了更多模態的後臺處理，這樣的輸入輸出對於AI變得更加智能，意義重大。

「天工3.0」會的多，但絕不是把一堆功能生硬的粘合在一起，其更底層的支撐，來自於模型能力層的提升。

大模型很強，但用好有門檻。大部分普通用戶沒有代碼開發經驗，更不具備訓練大模型提示詞工程能力，要把大模型調教成趁手的個人AI助理，用戶自己得先花時間好好學習。

針對這一現狀，「天工3.0」深度訓練Agent的能力，針對模型獨立規劃、調用、組合外部工具及信息的能力進行了專項訓練，使其能夠獨立生成並調用代碼，完成包括產業研究、產品橫評、信息分析、圖片生成、圖表繪製等多種複雜用戶需求。

以買車這個日常生活中的典型場景爲例，傳統做法是找到對應車型的介紹，再自己列出不同車型的核心參數進行比較，涉及到很多繁瑣的工作，這件事在「天工3.0」這兒變得特別簡單。

當在搜索框中輸入“特斯拉Model 3和Model Y哪個好”時，「天工3.0」首先會聯網查詢最新信息。

「天工3.0」給出的結果十分令人驚喜，因爲它不僅突破了傳統搜索只給出一堆鏈接、需要用戶自己瀏覽總結的體驗，直接把關鍵信息提煉了出來，更自動生成了兩款車型的對比表格，讓信息一目瞭然，便於用戶查看。無論內容和還是形式都十分貼心到位。

結果出來後，「天工3.0」還進一步細化了提問方向，引導用戶瞭解更加詳細的信息維度，以做好決策。原本需要耗費大量時間做的信息蒐集、整理和對比工作，在「天工3.0」這裡簡化成了一步：提問。

這種便捷體驗的實現，是「天工3.0」多輪內容生成、調用搜索、畫表格等能力在做支撐，底層則源自「天工3.0」深度訓練Agent的能力，讓大模型具有獨立思考的能力，實現每一步都能獨立思考，每一步都能判斷是否調用模式。

判斷一個大模型夠不夠聰明，很重要的一點就是它能不能解決複雜問題，數學與推理能力均提升超過30%的「天工3.0」邏輯推理能力大幅提升。這在天工的搜索研究模式、搜索增強模式中體現尤爲明顯。

比如，正值春天，很多人會有鼻塞打噴嚏的症狀，在搜索增強模式下查詢“春天鼻塞打噴嚏怎麼辦”後，「天工3.0」將這個比較模糊的問題延伸出了具體的原因和方法。

「天工3.0」基於自身的邏輯推理能力，幫用戶的模糊提問釐清了思路，進而輸出了一份信息全面、針對性也很強的回答。給出了不同的可能性，和相應的解決方案，並在最後繼續延展出更加細化的方向，幫助用戶結合自身情況進一步找到更加對症的解決辦法。

「天工3.0」最令人驚豔的部分，莫過於內容創作能力。

其AI圖片生成現在支持多輪修圖和擴圖，從下面的體驗中可以看到，當用戶輸入“兩個小孩在花園裡玩耍”的需求時，「天工3.0」生成了四幅圖片，隨後，增加“加一條小狗”的需求後，「天工3.0」也正確的輸出了有小狗和小孩一起在花園玩耍的畫面。

當輸入“擴展當前圖片”指令後，「天工3.0」在已生成圖片的基礎上，進行了合理擴展，爲畫面增加了花樹前景，令圖片層次更加豐富、氛圍感更足。

而在衆多內容生成能力中，「天工3.0」最令外界期待的，莫過於旗下4月17日開放公測的「天工SkyMusic」音樂大模型，這是國內首個音樂AIGC SOTA模型。

專業術語定義的優秀或許過於抽象，不如先看具體體驗。

將蘇軾經典詞作《水調歌頭》輸入「天工SkyMusic」，很快就生成了三首歌曲，歌曲時長最長爲一分半，有男聲也有女聲。

初次生成的曲風偏現代，進入編輯頁面，使用參考歌曲功能，選擇了《滄海一聲笑》作爲參考歌曲，讓「天工SkyMusic」再次生成，再次生成三首歌曲，曲風產生了明顯的變化。

人聲清晰、吐字標準、曲風有古意，顯然，與其他AI音樂生成大模型相比，「天工SkyMusic」顯然“更適合中國寶寶體質”。

達成這樣的效果並不容易。

AI音樂生成有兩大技術路徑，符號音樂生成路線、大模型音樂音頻生成路線。大模型音樂音頻生成+Song（人聲）可謂難上加難，而「天工SkyMusic」偏偏選了這條路。

對於一首音樂作品而言，人聲是非常重要的元素，最能夠體現生產作品的效果。過去，AI音樂行業大量研究都集中在符號音樂生成技術路線上，並且大多隻能實現無人聲背景音樂（Background Music，BGM）的生成，音樂的質量、效果、審美都遠遠達不到可用水平，產業遲遲未能爆發。

而從測試結果可以明顯感覺到，「天工SkyMusic」的AI人聲中文人聲清晰度、咬字準確，聽感清晰，顯著好於國外產品，達到了業內頂級水平。

這是因爲，與行業主流路徑不同，「天工SkyMusic」採用自研大模型音樂音頻生成技術路線，通過大模型技術實現樂器、人聲、旋律、音量、音符的一體化端到端音樂生成，技術難度極大，全球只有極少數玩家參與，崑崙萬維正是其中之一。

如今大語言模型（LLM）百花齊放的背後，很多開源項目可以被借鑑和參考，但在AI音樂大模型領域，幾乎沒什麼開源資源可借鑑。沒石頭可摸，「天工SkyMusic」踏入湍急的河水中，砸入很多研發資源，摸索出一條路出來。宣佈公測的同時，「天工SkyMusic」公佈技術原理圖——自己把坑踩完後，給行業復現的方案。

據介紹，在與海外頂尖的AI音樂大模型Suno V3的橫向測評中，「天工SkyMusic」在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手，並以6.65分的綜合得分超越Suno V3，成爲全球AI音樂SOTA模型。

「天工SkyMusic」還獨創了方言歌曲生成能力，在人聲自然度、發聲可懂度等領域表現優秀，支持粵語、成都話、北京話等衆多方言。

簡單寫了幾句介紹北京特色小吃的歌詞生成歌曲，兒化音倍兒地道。

同時，「天工SkyMusic」能夠生成80秒44100Hz採樣率雙聲道立體聲AI歌曲——這是理論上的CD音質界限，質量很高。「天工SkyMusic」還能根據用戶輸入的歌詞風格生成對應歌曲的風格，創作的易用性和個性化質量也很高。說唱、民謠、放克、古風、電子……不同音樂風格，「天工SkyMusic」都能駕馭。

另外，用戶可以通過歌詞來控制歌曲，讓生成的歌曲可以明確分辨出不同歌詞段落的情緒變化，體現出主歌和副歌、前奏和主歌的段落差異。獨創的參考音樂生成功能，支持用戶上傳自有參考音樂，生成風格、唱腔類似的歌曲，進一步降低音樂大模型的使用門檻，讓不熟悉樂理的用戶也能輕鬆使用。相當內行、專業和貼心。

從遊戲業務起家，到成爲全球平均月活躍用戶近4億、在海外孵化了多款千萬級DAU爆品的企業，崑崙萬維有安享舒適區的資本，但也有成爲巨頭的焦慮。

身爲體量中型的互聯網公司，崑崙萬維始終在尋找第二曲線，期望實現突破，讓公司規模和影響力更上一層樓。AI送來挑戰，也帶來希望。

2020年GPT-3給方漢帶來極大的衝擊。身爲崑崙萬維的管理者，他意識到，AI的高速發展必然會對內容產業帶來顛覆性的改變，“AI的任何一點進步都會導致內容創作的大爆發，這是所有內容廠商必須面對的事實。”

AI對內容生態太重要了。當曾經必須投入重金才能產出的內容，變成只需對AI描述需求就能輸出的產品，內容的生產成本被無限降低，創意的隨機性和不可靠性也被大大壓縮。這只是AI顛覆內容行業的一個維度。

內容產業本就是崑崙萬維的主場，經過數十年發展，崑崙萬維對於內容有深度理解，對變量也極度敏感，這些都讓方漢明確一點：對崑崙萬維而言，AI不得不做、必須要做，不然會被顛覆。

從2020年，崑崙萬維就持續投入AI，2022年底，高管戰略會更是決定要All in。在崑崙萬維眼中，對AGI和AIGC的投入和追求，不是追逐時髦的one more thing，而是必須押上全部資源投入的未來。

戰略上的確定推動着崑崙萬維AI大模型、AI搜索、AI音樂、AI社交、AI遊戲、AI視頻六大業務矩陣的快速落地。

如今，「天工SkyMusic」的發佈爲崑崙萬維發力AI創作者生態提供了可能性，而崑崙萬維在這方面的佈局，也將深刻影響行業的走向。

AI音樂生成大模型並不是音樂產業的破壞者，而是提供了更爲先進的生產工具。就如同火車的發明只是爲了幫助人們更好的出行一樣，「天工SkyMusic」將音樂創作的門檻降低了，普通人的情緒、情感可以通過大模型工具得到更爲廣泛的表達。

比如，任何一個人都可以用「天工SkyMusic」爲古詩詞譜上美妙的旋律，通過更加生動有趣的方式，讓大衆進一步感受到古詩詞的美和韻味，這對於詩詞文化的傳播以及文學教育具有很現實的意義。

在讓不會樂器、不懂樂理但熱愛音樂的普通人，可以無懼不懂樂理、缺乏能力，也能創作出屬於自己的音樂後，具備內容生產能力的羣體基數變大，文娛內容生產的成本自然會變低。崑崙萬維董事長兼CEO方漢便曾透露，根據崑崙萬維的觀察，當內容創作的門檻下降一半的時候，內容創作者的人數就會翻倍。

而創作門檻的降低，更蘊藏着文化平權的深刻價值。

方漢觀察到，在非洲等經濟相對落後的國家和地區，當地生產力太落後，因此沒有能力製作好的電影作品來跟強勢歐美文化抗衡。而歐美文化能夠在全球流行，本質上是做了大投入來創作好內容，達到強勢壟斷。

“當AIGC技術進化後，全世界所有人都可以低成本創作從音樂到小說，從漫畫到影視的內容。每一個小語種都會更容易創作出屬於自己的文化，這個實際上就是打破壟斷的文化平權。”

對崑崙萬維而言，從實際利益出發，AIGC賦予了人人平等的創作權利，小族羣也能創作更多優質內容，這是一個藍海市場，“在商言商，我們希望在這方面做出我們的差異化競爭”。更重要的是，當主流AIGC產品都以英文爲主，中文效果相對沒那麼好，方言更不支持時，國產AIGC產品的崛起，也爲文化的傳承和傳播提供了一層保護。

儘管「天工SkyMusic」目前仍在起步階段，但已經讓很多用戶感受到了音樂創作的樂趣。未來隨着持續優化完善，爲打造一個專業且易用的全民音樂創作平臺。這或許會促進更爲豐富多樣的音樂內容的產生，並在未來對產業的生產方式帶來新的變革。其價值，不會侷限於商業領域。作爲中國首個音樂AIGC大模型，「天工SkyMusic」率先轉動了變革的旋鈕。

本內容爲作者獨立觀點，不代表虎嗅立場。未經允許不得轉載，授權事宜請聯繫 hezuo@huxiu.com

該讓大模型走出對話框了

相關資訊