全國政協委員、中國信通院院長餘曉暉:構建高質量數據集,推動大模型在製造業賦能應用

全國政協委員、中國信通院院長餘曉暉在3月7日全國政協十四屆三次會議第二次全體會議後接受記者採訪時表示,大模型賦能製造業發展需要高質量數據集的支撐,要發揮中國製造業體系完備和場景豐富的優勢,推動製造業企業與人工智能企業合作,沉澱積累高價值場景數據,構建制造業數據資源體系。通過將高質量行業數據集與大模型相結合,推動大模型在製造業賦能應用。

隨着以大模型爲代表的人工智能技術突破,人工智能在製造業領域的應用已成爲一個極具戰略意義的發展方向。餘曉暉指出,當前,小模型在工業領域的應用相對更爲廣泛,且已形成較多的應用模式。這包括傳統的專家系統、機器學習以及最近幾年的深度學習等,它們在工業自動化、質量檢測、生產優化等諸多環節中發揮着重要作用。相比之下,大模型進入製造業仍處於早期的階段。從全球範圍來看,這一領域的發展仍處於初步探索時期,尚未形成成熟的產業生態和大規模應用格局。

他認爲,如果大模型技術進入製造業,其首要任務是與具體的工業場景緊密結合,並與工業數據相互融合。相比於娛樂消費領域,製造業對大模型的性能提出了十分嚴格的要求,例如實時性、準確性、可靠性等。這也要求大模型在實際應用中不能出現幻覺。因此,在大模型進入製造業的過程中,必須克服其可能出現的幻覺問題,並與應用場景的需求有效配合。

餘曉暉進一步指出,數據是當前大模型智能和推理能力的核心基礎。大模型的能力依賴於從數據中學習,而目前大模型訓練所用數據來源主要集中在互聯網等領域。製造業具有獨特的行業特徵,其業務流程、工藝機理和業務邏輯往往高度複雜且具有很深的專業性。這種複雜性和專業性意味着僅依靠現有的互聯網數據,大模型難以充分理解和適應製造業的高價值場景,尤其是在那些行業門檻高、機理模型深度複雜的領域。

因此,要推動大模型在製造業中的應用賦能,必須要解決數據問題。具體而言,需要在製造場景中積累和沉澱高質量的數據,形成高質量數據集。通過將高質量數據集與大模型相結合,推動大模型在製造業賦能應用。

餘曉暉表示,中國擁有全球最爲完備的製造體系,涵蓋了從原材料加工到高端裝備製造的全產業鏈條,這其中蘊藏的數據極具挖掘潛力。將豐富多樣的製造場景與海量的工業數據相結合,不僅能夠有力推動中國製造業的智能化升級,也將爲大模型的發展演進提供極爲重要的支撐。

餘曉暉指出,數據集存在於各個企業行業,需要製造業企業與人工智能企業形成聯合體,加強數據同享,共同挖掘數據價值,並把數據和場景融合起來,將數據沉澱、積累形成一個圍繞重點高價值場景的數據集,進而形成製造業行業的數據資源體系。更好賦能製造業數字化轉型發展。