數億美元!傳英偉達已收購合成數據公司Gretel

智東西作者 ZeR0編輯 漠影

智東西3月20日消息,據《連線》報道,兩位瞭解該交易的人士透露,英偉達已以九位數收購了合成數據公司Gretel。

消息人士稱,此次收購價格超過了Gretel最新的3.2億美元(約合人民幣23億元)估值,不過具體的收購條款尚不清楚。Gretel及其約80名員工的團隊將被併入英偉達,其技術將作爲英偉達生成式AI服務套件的一部分。

此次收購正值英偉達推出合成數據生成工具之際,開發人員可以訓練自己的AI模型並針對特定應用進行微調。理論上,合成數據可以創造近乎無限的AI訓練數據供應,並幫助解決自2022年ChatGPT成爲主流以來一直困擾AI行業的數據稀缺問題。儘管專家表示,在生成式AI中使用合成數據有其自身的風險。

英偉達、Gretel發言人拒絕發表評論。

一、交易將補強英偉達合成數據佈局

Gretel成立於2019年,創始人包括Alex Watson、John Myers、Ali Golshan,Golshan擔任首席執行官。這家初創公司爲想要構建生成式AI模型但無法獲得足夠訓練數據或對使用真實數據存在隱私擔憂的開發人員提供合成數據平臺和一套API。

Gretel不會構建和授權自己的前沿AI模型,而是對現有的開源模型進行微調以添加差異隱私和安全功能,然後將它們打包在一起出售。Pitchbook顯示,該公司在被收購前籌集了超過6700萬美元的風險投資資金。

與人類生成的數據或現實世界數據不同,合成數據是由計算機生成的,旨在模仿現實世界的數據。支持者認爲,這使得構建AI模型所需的數據生成更具可擴展性、勞動強度更低,並且更易於規模較小或資源較少的AI開發人員使用。

隱私保護是合成數據的另一個關鍵賣點,使其成爲醫療健康提供商、銀行和政府機構的有吸引力的選擇。

多年來,英偉達一直在爲開發人員提供合成數據工具。2022年,該公司推出了Omniverse Replicator,讓開發人員能夠生成自定義的、物理上準確的合成3D數據來訓練神經網絡。

去年6月,英偉達開始推出一系列開放式AI模型,這些模型可生成合成訓練數據,供開發人員用於構建或微調大語言模型。這些迷你模型被稱爲Nemotron-4 340B,開發人員可以使用它們爲自己的大語言模型收集合成數據,涉及“醫療保健、金融、製造、零售和其他所有行業”。

二、合成數據能補充數據集,增強隱私保護

在昨日主題演講中,英偉達創始人兼CEO黃仁勳談到行業在以經濟高效的方式快速擴展AI方面所面臨的挑戰。

“我們重點關注三個問題,”他說。“第一,如何解決數據問題?如何以及在哪裡創建訓練AI所需的數據?第二,模型架構是什麼?第三,Scaling Laws是什麼?”黃仁勳繼續描述了該公司目前如何在其機器人平臺上使用合成數據生成。

瑞士洛桑聯邦理工學院研究合成數據隱私的博士後研究員Ana-Maria Cretu說,合成數據至少能以幾種不同的方式使用。它可以採用表格數據的形式,例如人口統計或醫療數據,這可以解決數據稀缺問題或創建更多樣化的數據集。

Cretu舉了一個例子:如果一家醫院想要建立一個AI模型來追蹤某種類型的癌症,但正在處理的數據集只有1000名患者,那麼可以使用合成數據來填充數據集,消除偏見,並匿名化真實人類的數據。

“這還可以提供一些隱私保護,因爲您不能向利益相關者或軟件合作伙伴披露真實數據。”Cretu說。

但Cretu補充說,在大語言模型領域,合成數據也已成爲“我們如何才能隨着時間的推移增加大語言模型的數據量?”的一個無所不包的階段。

三、重複訓練可能導致質量顯著下降

專家們擔心,在不久的將來,AI公司將無法像以前一樣自由地獲取人類創造的互聯網數據來訓練他們的AI模型。去年,麻省理工學院數據來源計劃的一份報告顯示,對開放網絡內容的限制正在增加。

理論上,合成數據可以提供一個簡單的解決方案。但2024年7月《自然》雜誌上的一篇文章強調,當AI語言模型用其他模型生成的數據反覆微調時,它們可能會“崩潰”,即質量顯著下降。

換句話說,如果你只給機器餵它自己生成的輸出,理論上它就會開始自食其力,結果吐出殘渣。

AI數據標註公司Scale AI的首席執行官Alexandr Wang分享了《自然》雜誌關於X的文章中的發現,他寫道:“雖然當今許多研究人員將合成數據視爲AI的哲學之石,但天下沒有免費的午餐。” 他在後來的發帖中稱,這就是他堅信混合數據方法的原因。

Gretel的一位聯合創始人反駁了《自然》雜誌的這篇論文,他在一篇博客文章中指出,對純合成數據進行重複訓練的“極端場景”並不代表“現實世界的AI開發實踐”。

認知科學家兼研究員加里·馬庫斯(Gary Marcus)大聲批評AI炒作,他當時同意Alexandr Wang的“診斷,但不同意他的處方”。他認爲,通過開發新的AI模型架構,而不是專注於數據集的特性,該行業將向前發展。

在給《連線》雜誌的一封電子郵件中,馬庫斯談道,“像(OpenAI的)o1/o3這樣的系統似乎在編碼和數學等領域表現更好,因爲在這些領域,你可以生成和驗證大量合成數據。在開放式領域的通用推理方面,它們效率較低。”

Cretu認爲,圍繞模型崩潰的科學理論是合理的。但她指出,大多數研究人員和計算機科學家都在使用合成數據和真實數據進行訓練。“通過在每一輪新訓練中使用新數據,你或許能夠避免模型崩潰。”她說。

結語:大模型龍頭和科技巨頭已積極轉向合成數據

對模型崩潰的擔憂,並沒有阻止AI行業加入合成數據潮流,即便他們這樣做時非常謹慎。

據報道,在最近的摩根士丹利技術會議上,OpenAI聯合創始人兼首席執行官Sam Altman吹捧OpenAI使用現有AI模型創建更多數據的能力。

Anthropic首席執行官Dario Amodei相信可能可以構建“一個無限的數據生成引擎”,通過在訓練過程中注入少量新信息來保持其質量。

大型科技公司也開始轉向合成數據。

Meta談到了如何使用合成數據訓練其最先進的大語言模型Llama 3,其中一些合成數據來自Meta的上一個模型Llama 2。

亞馬遜雲科技的Amazon Bedrock平臺允許開發人員使用Anthropic Claude來生成合成數據。

微軟Phi-3小型語言模型部分是在合成數據上進行訓練的,該公司警告稱,“預訓練過的大語言模型生成的合成數據有時會降低準確性並增加下游任務的偏差。”

谷歌DeepMind也一直在使用合成數據,但這再次凸顯了開發用於生成和維護真正私密的合成數據的管道的複雜性。

“我們知道所有大型科技公司都在研究合成數據的某些方面,”音樂授權初創公司Rightsify的創始人Alex Bestall說,該公司還負責生成AI音樂並將其目錄授權給AI模型。“但在我們的交易中,人類數據通常是合同要求。他們可能想要一個60%由人類生成、40%由合成的數據集。”

來源:《連線》