北京智源人工智能研究院林詠華:大模型將從互聯網應用逐步走向千行百業

10月26日,在由界面新聞主辦的2023 REAL科技大會上,北京智源人工智能研究院副院長林詠華髮表了題爲《打造大模型技術的“Linux”,爲AI未來十年發展打下堅實根基》的主題演講。

在生成式人工智能的熱潮下,大模型及相關應用正在步入研發落地的新階段。而回望人工智能產業的發展,“質量”成爲實現AI落地的“最後一公里”問題,即能否達到產業、工業的發展要求。針對這一點,林詠華的觀點是,大模型會比小模型更具挑戰。

她特別提到,大模型的訓練數據、數據配比、訓練數據輸入順序,訓練過程中的所有超參設置都沒有完全公開,因此難以完全復現大模型的能力和問題;同時,大模型進行算法修改和重新訓練的投入極高,使得企業很難對其進行修補。再者,算法、數據和過程都有可能存在“debug”,問題成因難以分析。

這些因素都決定了基礎模型將會影響下游模型的能力,做基礎模型的企業機構需要不斷打磨。

林詠華強調,未來10年,大模型必然牽引人工智能走向美好的星辰大海,但在當下面臨多種挑戰,包括基礎大模型費用昂貴、訓練數據集獲取不易、評測方法參差不齊、工具碎片化、計算資源日益受限等。

在她看來,開源開放讓從業人員得以站在前人的基礎上繼續前行。智源此前的一系列發佈動作也表明,其試圖利用開源開放來解決上述產業挑戰。

具體到基礎大模型方面,近日智源宣佈悟道·天鷹Aquila大語言模型系列全面升級,其中340億參數的Aquila2-34B在多個榜單均表現搶眼。此外,智源將Aquila2模型系列全部開源,Aquila2的創新訓練算法、FlagScale框架、FlagAttention算子集以及語義向量模型BGE均已同步開源。

據林詠華透露,智源研究院所開放的全球最大的中文數據集WuDaoCorpora目前已對外開放低風險數據200G,至今已有數萬次下載。

評測方法方面,林詠華指出,大模型在生成能力、認知能力、人類思維能力的測評方面都面臨着挑戰:除少數生成任務外,生成能力仍主要依靠人類評分;認知的邊界難以確定;測評人類思維能力需要新的複雜測試集合、定義新的測試方式。

計算資源方面,國內廠商所採用的架構和開發工具鏈的不同、衆多的AI框架、層出不窮的場景等等因素,使得異構芯片間適配工作量大、開發複雜度高、評測標準也難以統一。

針對這兩方面的挑戰,智源研究院分別推出了大模型評測體系及評測平臺FlagEval以及AI芯片評測開源項目FlagPerf。

“大模型已經從語言模型走向多模態,這是技術走向落地的一個重要階段。”林詠華表示,未來大模型會從互聯網應用逐步走向千行百業,“我們希望看到大模型走出數字世界,走向物理世界,走向自動駕駛、機器人等場景。”