智源研究院理事長黃鐵軍:解決算力和數據問題,中國大模型將迎來能力躍升

央廣網北京7月11日消息(記者 黃昂瑾)當前,以大模型等爲代表的人工智能技術快速發展,正深刻改變着人們的生產方式和經濟形態。在2024(第二十三屆)中國互聯網大會期間,北京智源人工智能研究院(以下簡稱“智源研究院”)理事長黃鐵軍在接受央廣網記者採訪時指出,隨着算力和數據問題的解決,中國大模型的發展有望迎來能力的躍升。

“智源研究院在今年5月正式推出了智源大模型評估體系,並對國內外140餘個開源和商業閉源的語言及多模態大模型進行了全方位的能力評估。評估結果顯示,在中文語境的條件下,國內頭部大模型的能力已接近國際一流水平,但存在能力不均衡的情況。”黃鐵軍表示,“中國大模型的發展,需要解決算力資源短缺和高質量中文數據語料庫短缺和使用難的問題。隨着算力和數據問題的解決,中國大模型的發展有望迎來能力的躍升。”

據介紹,針對算力問題,智源研究院推出了面向大模型的異構算力集羣“操作系統”FlagOS,集異構算力管理、算力自動遷移、並行訓練優化、高性能算子於一體。向上支撐大模型訓練、推理、評測等重要任務,向下管理底層異構算力、高速網絡、分佈式存儲。

在數據方面,黃鐵軍指出,目前,在開源語料中,中文語料佔比不足十分之一,今年6月,智源研究院推出了多行業中英雙語數據集IndustryCorpus 1.0和千萬級指令微調數據集InfinityInstruct,解決數據量少和質量不高的問題。同時,智源研究院正在牽頭與多家單位共同建設北京市人工智能數據運營平臺,支持開源開放、積分共享、數算一體三種模式,解決數據使用難的問題。

“智能是從數據中學到的,從根本上講,數據是來自於環境。所謂生物的智能是我們適應環境的一種能力,它是對環境的某種表達或映射,智能的具體意義是人在什麼環境下具有什麼樣的行爲、遇到挑戰應該怎麼應對,這就叫智能。”在本屆大會人工智能大模型主論壇上,黃鐵軍介紹道。

黃鐵軍指出,業界普遍認爲從2017年底、2018年初開始,以Transformer架構出現爲代表,進入了大模型時期。實際上不僅僅是Transformer,之前有很多進展,其中最重要的是詞向量技術。“簡而言之,詞向量技術把語言中的每一個詞、每一個概念,用一個高維向量來表示。所以在人工智能的大腦裡面,每個詞是一串數字,長度至少是1024,現在也有更長的,上萬都可以。”

“人工智能理解的語義是1024維的高維空間,每一個詞在高維空間中都有自己的位置,這個位置決定了它和其他詞之間的關係,表示了它的語義。”黃鐵軍補充稱,對於人工智能來說,一個詞就是一串數字,這串數字是根據詞與詞之間的關係算出來的,一個詞的含義取決於這個詞在海量上下文中的位置。

以GPT大模型爲例,黃鐵軍進一步解釋稱,“Transformer架構最初是爲機器翻譯設計的,GPT把它用於計算海量語料中蘊含的語義,即用前K個單詞預測第K+1個單詞。爲什麼這種訓練方法能夠發現海量語料背後的語義?因爲智能的本質就是根據已知預測未來。這個K可以很大,原來是幾千,後來變成幾萬、幾十萬,甚至於更長,那麼長的一串詞的訓練,一個一個訓練,+1就是平移訓練。”

“今天互聯網產生了海量的數據,這些數據被大模型轉換成了智能、轉換成了智力,智力像電一樣會流通,爲每個人、千家萬戶提供服務。”黃鐵軍指出,“2030年之前,我們每個人都會像今天用電、用網一樣方便,以很低的成本用智力,這是一個新的時代。”

此外,黃鐵軍對央廣網記者表示,大模型參數規模高速度增長,智能越來越強,達到甚至超越人類智能的AGI有望在可預見的未來到來,潛在的AGI誤用和失控風險大幅增加。他指出,應對AI安全風險,需要對AGI水平和能力分級。

對此,黃鐵軍把AGI按能力分成五個級別,即第0級,AI認知水平低於人類;第1級,認知水平超越人類;第2級,感知能力超越人類;第3級,感知和認知能力同時超越人類;第4級,機器從具備意識進化爲具備自我意識;第5級,AGI的認知不再源於人類知識,AGI神經結構超越人類大腦,形態和智力水平都超出了人類想象,可能適應不同的物理環境,開始宇宙智能進化的新曆程。

黃鐵軍認爲,國際社會應該對人工智能模型訓練、分發、運營,模型能力閾值,系統開發和部署,形成全面的治理機制,從而開展有效監管。同時,加強對AI安全技術的研發與投入,有效應用技術手段對潛在AI安全風險進行監測、識別、隔離、消除。

“隨着大模型的智能水平越來越高,安全風險也會越來越大,所以對於安全的重視也應該跟人工智能和大模型的發展同步提高。”黃鐵軍表示。

更多精彩資訊請在應用市場下載“央廣網”客戶端。歡迎提供新聞線索,24小時報料熱線400-800-0088;消費者也可通過央廣網“啄木鳥消費者投訴平臺”線上投訴。版權聲明:本文章版權歸屬央廣網所有,未經授權不得轉載。轉載請聯繫:cnrbanquan@cnr.cn,不尊重原創的行爲我們將追究責任。