培育壯大數據標註產業!四部門發文指明方向 這些A股公司透露最新佈局
《科創板日報》1月13日訊(記者 吳旭光) 數據標註行業愈發受到市場重視。
1月13日,國家發展改革委、國家數據局、財政部、人力資源社會保障部四部門聯合發佈《關於促進數據標註產業高質量發展的實施意見》(以下簡稱《意見》)。
《意見》強調,培育一批數據標註龍頭企業,鼓勵通過資源整合、併購重組等方式做大做強,推動數據標註企業規模化、標準化、集約化發展。支持和鼓勵科技創新型數據標註企業承擔基礎研究、技術攻關、產業應用等重點任務,提高產業鏈協同創新水平。
什麼是“數據標註”?
簡單理解,就是給文本、語音、圖片、視頻等各種各樣的數據“打標籤”。其中,涉及跨領域跨模態語義對齊、4D標註、大模型標註等三項數據標註領域的關鍵技術突破。
有數據大模型行業從業人士對《科創板日報》記者表示,所有AI公司,在從事數據訓練時,都離不開數據標註環節,尤其是對算法開發、數據迭代升級,數據標註起到基礎保障功能。比如,自動駕駛、低空經濟、智能製造、智慧醫療等領域都離不開數據標註。據測算,2023年,我國數據標註產業規模達800億元左右。
《意見》強調,到2027年,數據標註產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均複合增長率超過20%。
東北證券今日(1月13日)在研報表示,近期國內外算力均迎利好在海外大廠的帶動和國內廠商的推進下,國內以豆包、騰訊、360等爲代表的AI應用會迎來大爆發,建議關注上游數據處理相關機會。
《科創板日報》記者通過多方採訪瞭解到,數據標註是人工智能技術研發中不可或缺的一環,更像是一種“生產要素”,部分A股上市公司已佈局數據標註產品,目前主要供各自內部使用。
據統計,截至目前,海天瑞聲、格靈深瞳、雲天勵飛、博彥科技等A股上市公司正圍繞市場需求,積極佈局數據標註相關產業。
其中,在4D數據標註領域,海天瑞聲通過在自動駕駛領域用於標註車輛、行人、交通標誌等物體在不同時刻的位置和運動狀態,幫助自動駕駛系統理解道路場景的動態變化,提升自動駕駛系統的感知能力等。
今日(1月13日),海天瑞聲董秘辦人士向《科創板日報》記者表示,“公司確實在做4D數據標註業務,並且有相關的產品DOTS-AD平臺,提供4D數據標註服務。但一般情況下,DOTS-AD平臺本身不對外作爲產品銷售,定位是公司內部數據生產用的工具,相當於公司產品生產的流水線環節,通過其加工後的數據產品售賣給客戶。”
“公司4D數據標應用於自動駕駛領域,是從2023年開始起步,經過不斷完善,目前該產品已逐步成熟,相關產品已在部分車企落地。目前相關業務收入佔總營收的比例接近兩成。”海天瑞聲董秘辦人士進一步補充。
談及數據標註等業務佈局,雲天勵飛董秘辦人士亦表示,該公司訓練大型人工智能模型而對數據進行標記、註釋等處理的過程,會涉及到數據標註工作。但數據標註並非雲天勵飛的主營業務方向,更不構成其一項獨立業務板塊,可以理解成是一種“生產要素”工具。
雲天勵飛董秘辦人士進一步表示,該公司在數據大模型業務板塊,涉及到數據外採,會有專業的團隊從事數據標註等相關業務,主要涉及數據的採集、清洗等工作,目的是讓公司採購來的數據更加規範,應用於大模型或者算法的訓練,效率更高。
在數據標註產品佈局上,“目前公司主要是通過軟硬件一體的解決方案對外銷售。”據云天勵飛董秘辦人士介紹,目前該公司涉及4D標註相關業務OD(origin-destination)產品,可應用於智慧交通領域,爲巴士路線規劃、站點設置、車次排班等工作提供科學決策依據等。
有數據標註從業人士對《科創板日報》記者介紹,“過去,需要很多人力去進行數據標註工作。彼時,某種程度上,數據標註屬於勞動密集型產業。隨着人工智能技術發展,目前人機協作的模式下,朝着更加智能化的方向發展,提升機器處理數據的效率、減少人的參與程度。”
作爲國內計算機視覺和人工智能技術型公司,格靈深瞳目前自建的數據標註平臺,通過組建具有專業背景的標註團隊,用人工標註加AI模型自動化預識別的方法,爲算法提供精準的基礎訓練數據。
對於大模型標註等業務佈局,1月13日,格靈深瞳董秘辦人士表示,“我們的數據標註都是爲格靈深瞳內部的多模態大模型算法、研發服務,不會對外出售。現階段,格靈深瞳的主營業務是計算機視覺應用,並不是以數據標註爲主業。”
“這對數據行業發展是一大利好。”前述有數據大模型行業從業人士表示,“有了行業政策加持之後,相當於在行業內形成一定數據標註標準。日後可以讓數據集的質量更加規範,有利於模型算法訓練效率的提升,減少數據再加工環節的工作負擔等。”
二級市場表現方面,截至1月13日收盤,海天瑞聲、格靈深瞳、雲天勵飛股價分別上漲4.44%、1.70%、0.18%,報收113.55元/股、13.15元/股、43.34元/股,最新市值分別爲68.50億元、34.05億元、153.91億元。