OpenAI“不能說的秘密”被公開了?使用YouTube數據訓練模型 獲取方式並不光彩

《科創板日報》3月19日訊(編輯 宋子喬) GPT大模型不斷進階的同時,OpenAI面臨的非議似乎只多不少,除了馬斯克一再追問的“開源”問題,OpenAI訓練大模型的數據來源不明,或已爲這家公司埋下了侵權訴訟的地雷。

當前AI大模型的訓練,數據端需要巨大數據量的大規模數據集投喂。公開資料顯示,OpenAI的數據來源可能包括但不限於:公開可用的數據集,如互聯網上的各種資源,如書籍、網頁、新聞文章、學術論文等;合作伙伴和第三方數據提供商提供的數據集;購買的特定領域的數據,如醫療、法律或科學文獻;合成數據,OpenAI可能會使用其模型自生成數據,例如通過模型自身的輸出來訓練和改進模型;衆包和社區貢獻的數據。

數據來源並不是最重要的問題,外界關注的焦點是OpenAI如何拿到這些數據。

▌“偷”來的?

正如Business Insider報道,OpenAI使用大量YouTube視頻訓練模型已經是“公開的秘密”,受益產品包括其新推出的文生視頻領域模型Sora。謎團在於OpenAI如何取得足夠的YouTube內容。

要知道,YouTube是谷歌的子公司。2006年,YouTube被谷歌以16.5億美元的價格收購,並在谷歌的支持下迅速成長爲全球最大的視頻分享平臺。

而谷歌一直致力於發展AI,是OpenAI的主要競爭對手之一,自然不會將自家金礦無償提供給對家使用,YouTube早已禁止出於商業目的的下載,還將限制大量下載YouTube視頻數據的行爲。這種嚴格把控下,個人用戶也受到了影響,有人表示,即使下載一個YouTube視頻,速度也非常緩慢,需要幾個小時才能完成。

一個普遍的猜測是,OpenAI使用爬蟲,“偷走”了YouTube的數據。OpenAI曾經承認,推出了名爲GPTBot的網絡爬蟲機器人,用於抓取和收集數據用於大模型訓練。

OpenAI高管對相關問題閃爍其詞,也從側面加深了人們對其“數據小偷”的印象。《華爾街日報》最近詢問OpenAI首席技術官Mira Murati,該初創公司是否使用包括來自YouTube、Instagram和Facebook的視頻來訓練Sora。

“我實際上對此並不確定,”她說。當再次被問及訓練數據的來源時,Murati拒絕回答,“我不會透露細節。”

Business Insider最新報道指出,一位熟悉OpenAI運營的人士表示,該公司指派了一個嚴密保護的團隊來獲取訓練數據,關於如何獲得這些數據,是一個保密問題。

▌柵欄叢生的AI原野

使用爬蟲的行爲並不爲谷歌所容,該公司旗下的YouTube禁止通過機器人和其他自動化方法抓取其視頻。

但對於OpenAI來說,以違反谷歌服務條款的方式訪問YouTube視頻可能並不違法。美國的判例法和“合理使用”原則保護了公司以不同方式自由使用在線內容的權利。

簡而言之,谷歌、OpenAI和其他科技公司目前認爲,使用受版權保護的內容進行人工智能模型訓練也是合法的。監管機構也尚未就此做出明確規定。人工智能的競技場仍然是一片廣袤的原野,與數據有關的遊戲規則要麼尚未確定,要麼被忽視。

各廠商爭先入場,搭建自己的技術柵欄。

OpenAI和其他大模型開發商此前曾在發表的研究論文中公開其訓練數據源,但隨着競爭加劇,這種做法不再盛行。人人都想要保留自己的技術秘訣,以求相對優勢,尤其是佔據有利地位的頭部廠商,開源之爭也是廠商試圖自留殺手鐗的體現。

唯一確定的是,隨着生成式AI技術的進一步迭代,類似的糾紛只會多不會少。

大公司更容易成爲衆矢之的,以數據爲例,即使它們敢於承擔責任,承擔高昂的數據採購成本,但要做到數據獲取完全合規,並不容易。由於參數量巨大,大模型需要藉助分佈式計算和雲服務等技術來進行訓練和部署,又增加了數據被竊取、篡改、濫用或泄露的風險。

如何平衡個人隱私保護和鼓勵技術創新,如何找到企業生存與合規生產間的最優路徑,已經是每個致力於生成式AI事業的公司繞不開的問題。