AI時代數據新變化:從成本和效率中心向價值中心轉變|直擊2024外灘大會

《科創板日報》9月6日訊(記者 張洋洋)數據作爲AI大模型最重要的要素,在大模型深入發展之後,數據這個要素目前發生了何種變化?

在2024外灘大會“從DATA for AI到AI for DATA”見解論壇召開,產學研代表深入探討了在AI時代數據價值的轉變,中國工程院院士、清華大學計算機科學與技術系教授鄭緯民,崑崙萬維 & 天工智能首席科學家、新加坡工程院院士顏水成參會,分享了數據技術的變化趨勢及與AI技術的融合。

▍大模型拉動數據與AI全面對齊

數據一定程度上決定了智能的上限,這使得大模型的技術越要突破,數據技術越要與其“對齊”,大模型對數據利用的“貪婪程度”,也影響了數據的存儲、生產、加工、流通、消費各個環節的技術走向。

在存儲環節,中國工程院院士、清華大學計算機科學與技術系教授鄭緯民表示,大模型生命週期的每一環節都與存儲系統有關,在數據獲取階段,需要處理海量多模態小文件,在數據預處理時,則要頻繁、隨機小樣本讀取,訓練時,檢查點文件讀寫對存儲系統提出新的需求,推理時,加載模型參數以及保存中間結果尤爲關鍵,這些挑戰也催生了新的技術方案誕生。

大數據時代,數據的價值還沒來得及充分挖掘,AI時代一到,數據卻面臨着消耗過快的挑戰,這使得合成數據技術成了熱門領域。據研究機構Epoch AI在6月發佈的報告顯示,從2026年起,人類產生的新數據量將比模型學習的新數據量要少,預估到2028年大語言模型將耗盡人類數據。

崑崙萬維&天工智能首席科學家、新加坡工程院院士顏水成認爲,模型結構還會繼續升級,大模型目前推理能力不夠等衆多的遺留問題,最好的解決途徑可能是用合成數據,但做法不同,不應是根據原來的數據合成新的數據,而是通過大模型之間相互的對話、討論、評價,最後產生出更好、更高質量的數據,這些數據將會大大去提升大模型的效能。

基礎數據庫也在加強與AI的融合。國產分佈式數據庫OceanBase CTO楊傳輝介紹瞭如何通過一套系統同時支持SQL+AI,支持向量數據庫,並通過AI技術優化數據庫開發和管理工具。

螞蟻技術研究院院長陳文光提出,向AI“對齊”需要從底層系統角度出發,包括硬件的結構和對應的編程語言、編譯系統等。他介紹了在人工智能、科學計算與大數據處理(FABS:Fused AI, Big Data and Science)融合的計算模式思考。

▍探索AI時代的數據戰略與實踐

從大數據時代到AI時代,數據體系正在從成本和效率中心向價值中心轉變,螞蟻集團平臺技術事業羣副總裁駱驥認爲,在AI時代,數據資產本身的規模、多樣性、品質等是決定智能化效果的關鍵因素。數據更加直接地影響到智能化應用的效果,這就意味着,從數據資產的生產、加工與服務、消費與應用等各個環節都需要圍繞數據的價值化這一全新的視角去構建相應的體系與技術能力。

駱驥分享了基於螞蟻集團業務場景下,AI時代的螞蟻智能數據體系探索與實踐。

他表示,在過去的兩年裡,螞蟻集團一直在構建一個圍繞融合數據湖、能提供各種數據驅動的智能化應用服務與能力的數據體系,其底層基於全模態存儲與計算引擎,上層能支持豐富的智能化業務應用場景。

在底層,螞蟻構建了行列混存,以及面向新搜索、新交互的向量數據庫能力,並且爲大模型訓練打造了極致的全模態緩存加速的新型存儲技術產品。

在覈心的融合數據湖裡,螞蟻致力於將結構化數據、半結構化數據與非結構化數據充分融合。除了傳統的數據管理與治理、端雲/跨雲的數據融合和隱私保護之外,還重點關注統一元數據、支持三線一致和Single Source of Truth,以及特別針對非結構化數據的安全可信與品質保障能力等幾大關鍵要素。

在上層的數據應用中,包含了高價值數據的生產(包括數據引入、數據感知、數據標註、數據合成)、全模態的數據研發和麪向機器與智能體的新特徵服務,以及圍繞數據的分析與科學實驗工程體系等。

“數據技術領域也正在飛奔進入一個全新的歷史階段。”駱驥說。