TikTok 母公司字節跳動的網絡爬蟲抓取速度遠超 OpenAI 等

TikTok(抖音海外版)的母公司字節跳動正在以比其他主要網絡爬蟲更快的速度積累大量網絡數據

據《財富》報道,字節跳動可能正計劃發佈其自身的大型語言模型,並正在積極使用其網絡爬蟲“Bytespider”來抓取數據以訓練其模型。

字節跳動的爬蟲程序 Bytespider 於 4 月現身,自那時起,其資源消耗率讓來自 OpenAI、谷歌、Meta 和 Anthropic 的網絡爬蟲遠遠不如。

卡斯達(Kasada)公司專門從事機器人管理,其首席執行官山姆·克勞瑟(Sam Crowther)告訴媒體,字節蜘蛛(Bytespider)的抓取率是 OpenAI 的 GPTbot 的 25 倍,是安特羅皮克(Anthropic)爲其克勞德語言模型(Claude LLM)開發的網絡爬蟲 ClaudeBot 的 3000 倍。克勞瑟還稱,過去六週,卡斯達的數據顯示,來自字節蜘蛛的抓取活動“大幅飆升”。

隨着字節爬蟲貪婪地抓取網絡數據,美國政府正試圖阻止美國用戶數據可能流向中國政府。今年 4 月,拜登總統簽署了一項法案,強制禁止 TikTok,除非字節跳動在年內將其出售。鑑於字節跳動出售 TikTok 的時間有限,其網絡抓取活動的高速度所帶來的緊迫感與此相契合——無論是爲了大型語言模型、更好的算法還是其他什麼,我們不得而知。

字節跳動計劃如何處理其新挖掘的所有數據仍有待觀察。但 TikTok 已爲該平臺推出了幾項由人工智能驅動的功能。5 月,它宣佈了一套供廣告商創建的工具,用於創建 人工智能生成的廣告 和 人工智能生成的頭像 供品牌和創作者使用。據傳,TikTok 還在開發一個內部搜索引擎,其搜索結果由人工智能驅動——可能使用了 ChatGPT。