【深度】百度李彥宏炮轟大模型“打榜”亂象:登上榜單不代表沒差距
如何看待大模型之間的差距和“打榜”亂象?如何衡量文心大模型的能力?百度爲什麼一直強調智能體?9月11日,一則百度內部講話稿流出,百度創始人、董事長兼CEO李彥宏在回答提問時就業界對大模型的認知誤區和文心大模型發展方向等問題作了解答。
對於大模型之間的競爭,李彥宏給出了自己的看法:大模型的天花板很高,現在距離理想情況還相差非常遠,所以模型要不斷快速迭代、更新和升級;需要能幾年、十幾年如一日地投入,不斷滿足用戶需求,同時降本增效。
《財中社》瞭解到,李彥宏上述內部講話稿以問答形式展開,系和百度內部員工交流內容的記錄。在講話中,李彥宏還對大模型行業存在的“刷榜”“打榜”亂象進行了炮轟:每一個新模型發佈時,肯定都想說自己有多好,每次都去跟GPT-4做比較,拿測試集或者弄一些榜單,說我的得分已經跟它差不多了,甚至某些單項上得分已經超過它了,但這並不能證明這些新發的模型跟OpenAl這種領先的模型相比,就已經沒有那麼大的差距了。
“每一個想證明自己能力的模型都會去‘打榜’,打榜時他就要猜別人到底在測什麼、哪些題我用什麼樣的技巧就能做對,所以從榜單或者測試集上看,你覺得能力已經很接近了,但到實際應用中還是有明顯差距的。”李彥宏進一步闡釋稱。
李彥宏表示,當前,大家有一種印象,認爲模型之間的能力差別已經比較小了,其實真不是這樣。“在實際使用過程當中,我不允許我們的技術人員去打榜。真正衡量文心大模型能力的是,你在具體應用場景中到底有沒有能夠滿足用戶的需求,有沒有能夠產生價值的增益,這是我們真正在乎的。”
“模型之間的差距是多維度的,一個維度是能力方面,不管是理解能力、生成能力、邏輯推理能力還是記憶能力等這些基本能力上的差距。”李彥宏進一步表示,另一個維度是成本方面,想具備這個能力或者想回答這些問題,付出的成本是多少?“有些模型可能推理速度很慢,雖然也達到了同樣的效果,但實際上體驗還是不如先進的模型。”
對於大模型之間的能力壁壘,李彥宏提醒,我們需要看到,一方面模型能力之間還有比較明顯的差距,另外一方面天花板很高,今天做到的跟實際想要做到的、跟理想狀態還差得非常遠,所以模型還需要不斷快速地去迭代、去更新、去升級。
據李彥宏判斷,不同模型之間的差距不是越來越小,而是會越來越大,只是他們不知道真實需求的時候,只去做測試集的題可能覺得差不多了。需要持續不斷地幾年甚至十幾年如一日往這個方向上去投入,越來越能夠滿足用戶需求、滿足場景、滿足提升效率或者說降低成本等的需求。
在大模型行業競爭方面,業內流行“領先12個月或者落後18個月”的判斷,李彥宏也並不認同,並認爲沒有那麼重要。“每個公司都處在完全競爭的市場環境中,你不管做什麼方向都有很多競爭對手。如果能永遠保證領先對手12-18個月,那是天下無敵的,不要覺得12-18個月是很短的時間,哪怕能保證永遠領先競爭對手6個月,那就贏了。你的市場份額可能是70%,而對手可能僅爲20%甚至10%的份額。”
對於開源模型是否正在縮小與閉源模型差距的話題,李彥宏作爲閉源大模型的堅定支持者也表達了自己的看法。在李彥宏看來,一個模型除了能力或效果之外還要看效率,效率上開源模型是不行的。“閉源模型準確地講應該叫商業模型,商業化的模型是無數個用戶或者說客戶在共享同樣的資源,在分攤研發成本、分攤推理用的機器資源和GPU。”
“在大模型時代之前,大家習慣了開源意味着免費、意味着成本低。”李彥宏以Linux爲例稱,由於Linux是開源的,所有程序員都可以看到代碼,哪兒做的不好可以去更新,大家衆人拾柴火焰高,在巨人的肩膀上可以不斷地進步。“但是這些東西在大模型時代都不成立,大模型時代大家經常講的是GPU有多貴,算力是決定大模型成敗的一個關鍵因素。”
在其看來,開源模型不會送算力,還得自己買設備,無法實現算力的高效利用。“開源模型解決不了這個問題。”
在內部講話中,李彥宏也結合AI應用的演進方式,迴應了“百度爲什麼強調智能體”的問題。
“爲什麼我們這麼強調智能體?因爲智能體的門檻確實很低。”李彥宏表示,智能體提供了一個非常直接、非常高效、非常簡單的方式,在模型之上構建智能體是相當方便的,這也是爲什麼今天每週都有上萬個新的智能體在文心平臺上被創造出來。
在大模型發展演進過程中,百度如何確立競爭優勢?李彥宏對此迴應稱,我們已經看到了智能體趨勢,也有比較好的先決條件,除了模型本身的能力比較強大之外,有很好的分發通路。“百度的APP,尤其是百度搜索一天有數以億計的人在用,用戶主動向我們表達了需求。哪一個智能體能更好地去回答用戶問題,去滿足這些需求,這是一個自然匹配的過程,所以我們是最能夠幫助開發者分發智能體的。”