“國家隊”評測30個大模型數學能力,九章、文心、星火位列前三

(原標題:“國家隊”評測30個大模型數學能力,九章、文心、星火位列前三)

去年ChatGPT橫空出世後,我國也迎來“百模大戰”,大模型能力測評成爲業界前沿課題。近日,大模型數學能力權威測評基準MathEval圍繞數學能力,對國內外30個大模型(含同一模型的不同版本)開展測評。根據測評結果,學而思九章、百度文心一言4.0、訊飛星火V3.5摘得前三名。其中,學而思旗下九章大模型在整體表現和中文、英文、各學段子榜單中,都具備領先優勢。

數據顯示,截至去年10月,國內累計發佈大模型超200個。大模型越來越多地被運用到數學應用領域,包括數學問題解決、數據分析、學術研究、學習輔導等。目前,通用或垂類大模型都具備一定的數學能力,而其能力表現則需要專門測評。不過現有大模型能力測評多數是對通用能力的測評,也有對推理能力、自然科學能力的專門測評中,但沒有專門針對數學能力測評的參考基準,以及專門的權威測評機構。

近日MathEval的上線,彌補了行業空白。MathEval由智慧教育國家新一代人工智能開放創新平臺聯合暨南大學、北京師範大學、華東師範大學、西安交通大學、香港城市大學共同發起,是一個專注於全面評估大模型數學能力的測評基準,旨在全面評估大模型在算術、小初高競賽和部分高等數學分支在內的解題能力表現。

截至目前,MathEval收集了2010年以來共19個被廣泛使用的數學能力測評數據集,這些數據集來自ACL、AAAI、ICLR等數十個國際人工智能頂會論文中的公開數據,覆蓋了不同年級、題型、文本形式和難度的數學問題,從而提供全面、具體的數學能力測評結果。

最新這次測評中,MathEval測試了30個大模型。在評測過程中,MathEval團隊使用了GPT4大模型來進行答案抽取和答案的匹配,減少基於規則進行評測所帶來的誤差。結果顯示,九章大模型在整體榜單和子榜單均排第一名。

九章大模型是由學而思自主研發的、面向全球數學愛好者和科研機構的垂類大模型。據悉,該公司在相關研發方面已累計投入超10億元。可以說,作爲少有的專注解題和講題算法的大模型,九章這一表現並不意外。

同時,作爲通用大模型的文心一言4.0、訊飛星火V3.5在測評中的表現也頗爲亮眼,佔據了第二、三位,均優於GPT-4。由此可見,國產大模型在數學方面的能力已經實現了趕超,未來能力提升和落地應用值得期待。