對話智源林詠華:有些大模型的評測基準已經失去意義

作者|油醋郵箱|zhuzheng@pingwest.com

智源研究院理事長張宏江在爲圖靈獎獲得者Yann LeCun的自傳《科學之路》作 序時有這樣一句話:

Yann LeCun在1980年代末第一次走進AT&T貝爾實驗室,等到他完全告別這座美國最大的業界研究機構已經是2002年。之後進入紐約大學創立數據科學中心,以及加入Facebook領導扎克伯格重的AI研究部門,都建立在那開發出了LeNet的黃金十年上。

‍‍而對於智源研究院來說,這個非盈利組織所建立的目的與這句話如出一轍。這是一個匯聚人工智能創新要素的平臺,更是一個集結最優秀同行,爲未來可能產生原始創新與長期影響的領域提供空間的社區,以期能讓中國出現突破性成果的概率增加。

成立五年後,生成式AI的智力水平突然有了ChatGPT這樣一個大幅超過人類預期的樣本,突破性的時間節點呼之欲出。

朝着ChatGPT追趕,修煉基礎大模型,成了從去年年末開始全球AI領域最直覺性的奮鬥路徑。

智源研究院是國內最早開始着手大模型研究的團隊。2021年一份《On the Opportunities and Risk of Foundation Models》的研究報告統一了Foundation Models(基礎模型)的概念, 而在這份報告出現的半年前,智源研究院院長黃鐵軍開始提出中文的“大模型”概念,隨着黃鐵軍提出“人工智能的發展已經從‘大煉模型’逐步邁向了‘煉大模型’的階段”,智源研究院拿出了悟道1.0,項目負責人是唐傑。

2個月後悟道2.0出現,1.75萬億的參數量擴展到當時GPT-3的10倍。

現在智源研究院正在基礎大模型的開源路徑上走深。兩週前發佈的中英雙語大模型AquilaChat2-34B在22項評測基準中拿到領先身位,AquilaChat2-34B以及AquilaChat2-34B V1.2 版本的權重也在昨天進一步開放了。

圖源:智源研究院

現在是ChatGPT出現的11個月之後,幾乎一年。智源研究院拿出最新開源模型的時候,閉源的GPT-4在相當多的任務類型上一騎絕塵,Claude-2在身後緊追,全球圍繞開源模型Llama 2所建立的上下游生態在迅速豐富,而國內冒出的大模型廠商已經幾乎達到100家。

大模型的發展跑的太快了,最直白的參照是模型能力評價方法的嚴重滯後。

“如果我們根本不能預測這個模型它能做什麼,那我們又該用什麼題去考它呢?”智能研究院副院長兼總工程師林詠華提出了這樣的問題。

智能研究院副院長兼總工程師 林詠華

10月26日,2023界面REAL科技大會後,我們有機會和這位智源研究院內部,語言大模型、大模型技術棧、AI系統研發的負責人有一次對話的機會。現在將其中一些關於大模型評測方式現狀,以及中國開發者該如何看待開源這件事的討論整理出來(爲閱讀方便做了一些文本處理):

C-Eval、MMLU以及CMMLU,

這三個榜已經被打的太多了

問:度量大模型能力的榜單是不是太氾濫了?

林詠華: 我們之前模型發佈後,也有國外的一些用戶在推特上討論爲什麼在MMLU(Massive Multitask Language Understanding)上評分沒有那麼高。大家有時候過分的關注一些指標,但是實際上有一些測評榜單完全是可以靠定向的訓練數據來拔高分數的,所以大家也會看到,甚至是一些7B 、十幾B的模型,它都能夠考出很高的分數。

到現在確實仍然沒有一個被公認的測評集,但至少C-Eval、MMLU以及CMMLU,這幾個類似的測評集已經有點被各個模型過度訓練。所以,時至今日觀察大模型能力時,我建議大家不用過度關注這幾個測試集的評分。

另外,我一直覺得,如果模型爲了拉這些榜單的分數而去訓練的話,容易損失模型在之後的一些能力的。

問:那要如何從測評集中辨別大模型的能力?

林詠華: 如果需要從現有市面上的各種評測集中去辨別的話,目前只能儘量擴充測評集的差異化。第一就是要看哪些評測結果囊括的評測集數量較多,第二就是囊括的測評集不要都是評測類似能力的,比如把各種推理能力、生成能力、甚至數學和代碼能力等等不同側重的評測集都包括,讓對大模型的評價更多元一些。

此外很重要的一點是,要保證這些評測的對比結果是在同一個環境下獲得。不同評測代碼和設置,對不同模型的評測結果會有影響,如果不能做到在同一個環境下獲得不同模型的評測結果,很難保證公平公正。智源研究院做的大模型評測系統FlagEval,就是嚴格對所有開源模型進行一致的評測,這樣才能保證評測結果的公平、可信。

但另一方面,大模型進入具體行業是要在基礎模型上去做微調,好不好用其實並不在於這些基礎模型打榜時候的分數高低。這一點對評估基礎模型的能力十分重要。

問:也就是說最好越過評測基準,來衡量一個基礎模型的能力?

林詠華: 我認爲基礎模型更重要的衡量,在於它在下游任務上經過微調之後的表現。給後續使用者提供強大的模型能力“後勁”,這是我個人覺得基礎模型最重要的能力。

問:如何衡量這種“後勁”?

林詠華:比如,一個好的基礎模型和一個欠優的基礎模型,用同樣的數據去微調這兩個基礎模型,最後在一個相同任務上的表現差異是比較能夠反映兩個基礎模型之間的能力差異的。我們自己做了7B、34B等等一些不同能力的模型,很明顯的能夠看出來這一點。

這就像是天賦不同的學生,給定一樣的時間,學一樣的東西,最後學到的東西會有差異。

但這樣的評估方式,每一次都涉及微調的訓練成本。對於內部研發沒有問題,但如果作爲外部的評測,往往需要考慮評測代價、微調數據的選擇等等衆多因素。我們自己也在做這方面的探索,但目前市面上還沒有從這個邏輯出發的高效評測方法和體系出現。

只要能對一部分人有用,就值得開源

問:談談開源這件事吧,國內開發者對開源社區的依賴程度很高,但好像並不太承擔主導的角色?

林詠華: 這是個有趣的現象。

中國並不缺乏參與開源的開發者或者企業,所謂“參與開源”,就是參與到別人的開源項目裡。這些開源項目往往是全球性的,就像當初的OpenStack,其中有很多中國的開發者和公司做出了貢獻。但它們中大多數項目不是由中國的程序員或公司發起的,而是由中國以外的開發者或公司發起。

我們衡量一個開源項目是否成功,其中有一個維度就是有多少不同的團隊或組織在其中有所貢獻。其實由中國公司或團隊發起的開源項目一點都不少。但是項目最終做大的很少,尤其是做到像OpenStack這樣,由多個公司和組織一起來貢獻的更少。

問:怎麼理解這個“一點都不少”?

林詠華: 如果把GitHub等等開源社區中所有開源了的項目都算上,其實中國開發者發起的開源項目很多。但其中更多是活躍了1~2個月,然後就沒有堅持下來。

問:爲什麼這些項目留不下?

林詠華: 開源項目的成功需要持之以恆的投入,一個開源項目發佈之後馬上就火了只是極個別的案例。堅持更新、不斷的迭代才能夠讓開源的項目變得更優質。但很多時候國內的企業和個人開發者並沒有堅持下去,一旦他們的項目開源後,發現star寥寥無幾,可能就十幾個或一百多個,可能就不再去堅持,不再投入了。然後就變成殭屍的開源項目。

這裡面有客觀因素,中國的科技企業與全球其他地域的科技企業相比,要面臨更大的競爭壓力。坦白說無論是初創企業所面臨的資金壓力,還是企業在同一個賽道上所面臨的競爭對手數量,都會導致它能夠投入到開源項目上的精力或資源有限。

問:開源這件事需要等待時機嗎?

林詠華: 智源研究院在幾個月前開源了中英文語義向量模型BGE(BAAI General Embedding),很多用戶在社區裡提建議、提需求,包括更多國家語言的支持、包括更多能力的期待。這些反饋都是開源使用者對我們下一個版本的迭代的很好建議。我們在這些反饋的基礎上,在10月中旬又發佈了BGE-V1.5。

開源本身也是收集需求,幫助我們更好地決定下一步技術發展的一個路徑。

一個項目的第一個開源版本,那個“1.0”,往往並不需要完全是一個完美的版本。一個項目,可能一年後才能做到完美,但有可能今天的這個版本就已經能夠滿足一部分人的需求了。我會建議在這個時候就開源出來,然後在過程中不斷的增加能力,然後再不斷的更新,這樣可以讓外面需要這個功能或代碼的用戶能儘快用起來。