聚焦WAIC丨大模型落地考:快跑需警惕“跛腳”,安全治理“箭在弦上”

21世紀經濟報道記者李覽青 上海報道

如果說2023年的世界人工智能大會(WAIC)是“百模大戰”,今年WAIC的關鍵詞是“應用至上”。縱觀今年論壇熱點話題,無論是具身智能還是AI Agent(智能體),都指向以大模型爲代表的AI技術在不同場景下的垂直應用。

“去年年中我們接觸的很多企業,對自己的定位都是基礎大模型或通用大模型企業,到去年年底定位改爲行業大模型企業,到今年我們發現,有一些企業的戰略定位已經精準落到場景大模型企業上了。”中國信通院華東分院人工智能事業部主任常永波向記者坦言,“現在或許可以被稱爲‘黎明前的昏暗’。”他提到,應用價值與應用安全就像大模型創新發展的雙指針,當前人工智能技術已進入模型迭代的快週期,但現象級的、有極高落地應用價值的產品還沒有出現,企業在紛紛探索落地深度應用場景的同時,也會不約而同地高度重視應用場景需求下對安全的行業要求。

但一個擺在行業面前的問題是,AI大模型的安全能力還沒有跟上技術迭代的腳步。在WAIC開幕式上,上海人工智能實驗室主任、首席科學家周伯文坦言:“當前AI技術正呈指數級增長,但安全治理沒有跟上。在大模型研發過程中,往往還是性能優先,總體上模型安全能力遠遠落後於性能。”

在人工智能真正帶來應用變革前,一場關於安全治理的行動亟待展開。

應用時代,更需警惕“跛腳AI”

站在2024年的下半場回顧大模型的發展路徑,從2017年Transformer模型發佈到2022年基於GPT-3.5的ChatGPT橫空出世,相關模型迭代依然是以年爲單位的,而2023年以來,幾乎每個月甚至每週都有新的模型變革誕生,通用大模型已經具備了跨模態的理解和生成能力。

以Meta爆火的Llama系列模型爲例,從2023年7月到2024年3月的半年時間內,其訓練數據規模從2萬億tokens增加到15萬億,Llama 3的數據量遠超Llama1和Llama 2的總和,其中代碼比Llama 2多4倍。此外,爲了提高 Llama 3 模型的推理效率,Meta AI還採用了分組查詢注意力 (GQA)機制,進一步強化了模型在語言、知識、編程、數學等方面的能力。

與此同時,大模型在不同場景領域的專業化應用深度也在拓展。一方面,專用化的行業大模型正在深入金融、政務、醫療等特定行業,通過精細化優化滿足行業的特殊需求,以更精簡的參數規模、更低的成本優勢與企業內部數據深度融合,從而應用於實際業務場景。

另一方面,包括AI Agent與具身智能在內的大模型應用正加速落地,在今年的WAIC展覽中共有25款人形機器人蔘展,被稱爲“人形機器人天團”,而螞蟻也帶來了基於百靈大模型的智能體應用體驗。

“目前AI性能呈指數級增長,與此形成對比的是,AI安全維度典型的技術,如紅隊測試、安全標識、安全護欄與評估測量等,呈現零散化、碎片化,且後置性的特性。”周伯文坦言,AI模型在安全與性能之間的失衡,將導致AI的發展是“跛腳”的,其背後是全球在安全投入上的巨大差異。

安全與性能始終在天平的兩端。

在人工智能技術誕生之初,模型“幻覺”問題與算法“黑盒”問題也隨之誕生,前者意味着生成內容或許不可信,後者意味着出現風險後或許難以歸責。

在大模型邁向商業應用的階段,這些風險被放大,同時也會產生新的安全隱患。“過去大家也發現模型會出現幻覺問題,導致模型輸出的內容存在風險,但在工業應用的過程中,這種不穩定性變成了不可靠。”螞蟻集團安全實驗室首席科學家王維強提到,特別是當下大模型在各個端上的落地離不開Agent的應用,而複雜的Agent體系下進一步擴大了人工智能的風險敞口。他指出,隨着大模型能力的不斷增強,在安全性、可靠性、可控性等方面受到前所未有的挑戰,如研發過程中引發信息泄露、價值對齊、機器幻覺等問題,以及落地過程中面臨的數據、模型、算法及其運行的軟硬件環境安全風險等等。

“不少企業是在原有的傳統數據安全、信息安全、系統安全等經驗基礎上,進行能力遷移,應用於大模型安全。”清華大學長聘副教授、博士生導師李琦指出,大模型安全應用是一個新興領域,研究和應用尚處於起步階段。隨着新的大模型安全實踐的不斷深入,技術也會持續升級,應當爲大模型安全構建實踐範式,打造高價值參考體系。

大模型安全治理“箭在弦上”

人工智能革新帶來的種種風險,無論是監管、學界還是產業界都意識到安全治理已“箭在弦上”。

2019年,中國新一代人工智能治理專業委員會發布《新一代人工智能治理原則——發展負責任的人工智能》,推動人工智能安全可控可靠。此後《數據安全法》、《個人信息保護法》、《關於加強金融科技倫理治理的意見》、《互聯網信息服務深度合成管理規定》、《生成式人工智能管理暫行辦法》、《科技倫理審查辦法(試行)》、《生成式人工智能服務安全基本要求》等一系列文件出臺,各項合規與安全要求已涉及AI產品、服務的全生命週期,我國AI合規與治理框架已初現雛形。

產學研聯動層面,涉及可解釋性、魯棒性、公平性、隱私保護等四個維度在內的“可信AI”被廣泛認可。伴隨着大模型帶來的風險敞口擴大,圍繞“可信AI”的治理也走向升級。

在WAIC期間,《大模型安全實踐(2024)》白皮書(以下簡稱“白皮書”)正式公佈,這也是國內首份“大模型安全實踐”研究報告,該白皮書由清華大學、中關村實驗室、螞蟻集團等機構聯合撰寫。白皮書首次系統化提出安全實踐總體框架,從安全性、可靠性、可控性等三個維度提供技術實施方案。“這三個維度是我們對大模型時代‘可信AI2.0’的升級。”作爲白皮書的主要撰寫人員之一,王維強分別對上述三個維度作出解釋:安全性意味着確保模型在所有階段都受到保護;可靠性要求大模型在各種情境下都能持續提供準確、一致、真實的結果,從而保障決策支持系統的可靠;可控性則關乎模型在提供結果和決策時能否讓人類瞭解、介入,根據人類需要進行調試和操作。通過這三個維度,可提升大模型的魯棒性、可解釋性、公平性、真實性、價值對齊、隱私保護等方向的能力。

白皮書指出,需要構建集大模型安全人才培養、大模型安全生態培育、大模型安全企業自律、大模型安全測試驗證、大模型安全政府監管“五維一體”的治理框架。在記者的採訪中,被談及最多的治理突破點是企業自律與測試驗證。

“就目前來看,讓大模型完全不犯錯是幾乎不可能的,但讓它犯錯的機率變小,減弱錯誤的危害性,這是可以做的。”常永波表示,如今國內頭部廠商已高度重視安全治理,除了中國信通院在開展標準和測評研究外,螞蟻、商湯等都構建了自己的安全和治理體系,但隨着大模型落地的門檻降低,部分中小型企業在模型治理、安全管理層面的能力較弱,這既需要監管的引導,也需要行業搭建起安全測評的指標體系。

螞蟻集團安全內容智能負責人趙智源向記者坦言,基礎大模型的技術迭代週期非常快,特別是在前期研發階段由於配置上的變更,每次更新可能都會產生一些新的不確定性。“以深度僞造爲例,它的攻和防是一個相對且不斷精進的過程,你在進步,深度僞造也在進步,我們要做的就是跑在它的前面。”趙智源表示,對於企業來說,一方面在大模型投入應用之前,需要做好全面的評測,對評測出來的安全性問題做針對性防禦,降低其發佈應用後可能產生的風險;另一方面,技術發展一般都會先於安全技術的演進,所以安全研究需要有一定的前瞻性,並實現與大模型應用技術的有機結合。

“我們很早就在探索基於安全知識來構建視覺領域生成內容風險抑制的技術,在多模態大模型發佈後,我們又將其集成到多模態基座中,有效降低了風險內容的生成比例。”據趙智源介紹,螞蟻集團已構建起面向產業級應用的大模型安全一體化解決方案“蟻天鑑”2.0版本,形成了包括大模型基礎設施測評、大模型X光測評、應用安全測評、AIGC濫用檢測、證件僞造檢測、圍欄防禦等在內的完整的測評和防禦技術鏈條,並運用於金融、政務、醫療等專業場景下的AI應用全流程。

“我們現在已把‘蟻天鑑’的整個測評能力做了開源,將來也會把螞蟻的檢測能力以及對風險的認知分享到平臺上,它可以適配比較多的模型,希望螞蟻提供的開放能力能夠讓整個大模型行業實現持續健康發展,做一個負責任的大模型。”王維強表示。