中文互聯網語料資源平臺發佈
1月9日,在中國網絡空間安全協會人工智能安全治理專委會工作年會上,中文互聯網語料資源平臺正式面向社會發布。
在中央網信辦指導下,中國網絡空間安全協會會同國家互聯網應急中心,協同人工智能產、學、研、用單位,共同建設中文互聯網語料資源平臺,面向社會提供中文互聯網基礎語料展示下載服務。平臺支持行業領域、內容模態、體量規模等多種標籤分類,便於用戶下載與使用。
目前平臺共入駐27個語料數據集,數據總量約2.7T,主要分三類:一是中國網絡空間安全協會會同國家互聯網應急中心等建設的中文互聯網基礎語料;二是人民網、北京智源研究院、上海人工智能實驗室等單位共享的互聯網語料;三是中國網絡空間研究院、中國國家版本館、中國大百科全書出版社、中國社會科學院圖書館等單位貢獻的優質中文基礎語料樣本。登錄中國網絡空間安全協會官網,即可在首頁註冊使用平臺。
下一步,平臺將依託中國網絡空間安全協會人工智能安全治理專委會建立的語料共建共享機制,持續吸納優質中文互聯網語料進駐,探索開展數據來源合規評估、質量評價、安全檢測等服務,構建健康可持續的中文互聯網語料開發利用生態,促進和支撐大模型產業發展。
來源:“網信中國”微信公衆號