全球人工智能峰會呼籲保護語言模型文化身份

新華社利雅得9月13日電 隨着生成式人工智能的發展,對大語言模型的需求越發明顯。日前在沙特首都利雅得舉行的第三屆全球人工智能峰會上,沙特數據與人工智能局發佈了目前最大規模的阿拉伯語大語言模型,與會代表探討如何讓人工智能技術賦能阿拉伯世界,在全球化中保護語言、身份和文化的多樣性。

沙特數據與人工智能局介紹說,該機構研發的擁有70億個參數的阿拉伯語大語言模型ALLaM已經上線微軟的雲平臺,訓練數據集包含5千億個阿拉伯語基本文本單元。

與會嘉賓表示,在發展大語言模型中保護文化身份,首先還是來自高質量數據集的挑戰。要收集多樣化的數據集,包括方言、習語和文化的細微差別。這種數據的多樣性使人工智能不僅可以作爲一種技術工具,也可以作爲跨越文化鴻溝的橋樑。模型訓練過程中,需要聘請來自不同文化的數據標註者,儘管這是一個複雜且昂貴的過程,但對於確保人們平等受益於大型語言模型帶來的技術進步,保證人工智能的普惠性非常重要。

人工智能公司Emotech首席執行官莊宏斌在此次大會的主旨演講中,介紹了“小語言模型”的概念。小型語言模型,是大型語言模型的緊湊版本。它們旨在高效執行語言相關任務,同時消耗較少的計算資源。與可能由數千億個參數組成的大型語言模型不同,小型語言模型的特點是參數數量較少,適合數據資源有限的方言語言模型,適合部署在移動設備或邊緣計算設備等資源受限的環境中。

與會嘉賓表示,隨着人工智能技術的發展,其在調整和塑造人類互動文化方面的潛力也在增長。然而,挑戰在於如何確保這些技術的開發具有包容性,尊重全球用戶的語言和文化多樣性。技術的包容性和語言文化的多樣性應作爲未來真正全球人工智能格局的基礎。

第三屆全球人工智能峰會於10日至12日在利雅得舉行,峰會主題是“利用人工智能造福人類”。(完)