迎戰GPT-4V!谷歌PaLI-3視覺語言模型問世,更小、更快、更強

上個月,ChatGPT 正式具備了圖像與語音識別能力。

本月初,微軟更是公佈了 166 頁的多模態版 GPT-4V 的相關文檔,詳細探討了 GPT-4V 的功能和使用情況,這一舉動引起了業界的廣泛關注。

然而,在視覺語言模型的角逐中,谷歌也不甘示弱。

近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一個更小、更快、更強大的視覺語言模型(VLM)——PaLI-3,該模型與相似的體積大 10 倍的模型相比具有顯著競爭力。

研究人員使用分類目標預訓練的視覺變換器(ViT)模型與對比性預訓練的模型(SigLIP)進行了比較,結果發現,PaLI-3 雖然在標準圖像分類基準上略微表現不佳,但基於 SigLIP 的 PaLI 在各種多模態基準測試中表現出卓越的性能,特別是在定位和文本理解方面。

相關研究論文以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”爲題,已發表到預印本網站 arXiv 上。

研究團隊認爲,僅有 50 億參數的 PaLI-3 重新點燃了關於複雜 VLM 核心組成部分的研究,可能推動新一代規模更大的模型的發展。

更高分辨率的多模態學習

最近,大型視覺語言模型在其更大的模型中使用預訓練的圖像編碼器,其中一些使用監督分類進行預訓練(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用預訓練的CLIP編碼器(如BLIPv2,CrossTVR,ChatBridge,還有一些使用自定義多模態預訓練(如 BEiT3,CoCa,SimVLM)。

本次研究的訓練方法包括三個主要組成部分:在網絡規模的圖像文本數據上進行圖像編碼器的對比性預訓練,改進的 PaLI 多模態訓練數據混合以及以更高分辨率進行訓練。

在單模態預訓練階段,圖像編碼器在 Web 上的圖像文本配對上採用 SigLIP 訓練協議進行對比預訓練。研究人員採用了一種基於模型的過濾方法,保留了大約 40% 的配對。圖像編碼器在 224×224 的分辨率下進行訓練。文本編碼器-解碼器是一個 3B UL2 模型,按照混合去噪程序進行訓練。

在多模態訓練階段,研究人員將圖像編碼器與文本編碼器-解碼器結合在一起,形成了 PaLI 模型。這個模型針對多模態任務進行訓練,保持圖像編碼器的凍結狀態,使用原生分辨率(224×224)。

主要的數據混合來自 WebLI 數據集,經過篩選和使用特定的訓練目標。其他元素包括多語言字幕、OCR 處理、跨語言 VQA 和 VQG、物體感知 VQA 以及物體檢測。雖然沒有包括來自視頻的任務或數據,但由於強大的圖像編碼器,PaLI-3 在這些基準上仍然具有競爭力。此外,通過向 WebLI 添加了包含稠密文本和網絡圖像(如海報或文檔)的 PDF 文檔,以及支持 100 多種語言的文本,文檔和圖像理解能力得到了進一步的提高。

在提高分辨率階段,研究通過對整個模型進行微調(解凍圖像編碼器)並使用逐漸增加分辨率的短期課程來提高 PaLI-3 的分辨率,保持在 812×812 和 1064×1064 分辨率處的檢查點。數據混合主要集中在涉及視覺定位文本和物體檢測的部分。

提升圖像理解與文本定位任務

首先,研究人員在 PaLI 框架內進行了對不同的 ViT 模型的有控制的比較。結果發現,雖然 SigLIP 模型的少樣本線性分類性能較差,但當在 PaLI-3 中使用時,SigLIP 模型在"簡單"任務(如字幕和問答)上提供了適度的性能提升,並在更"複雜"的場景文本和空間理解任務(如 TextVQA 和 RefCOCO 變體)上提供了大幅提升。

隨後,研究又在視覺定位文本理解任務中評估了 PaLI-3,這些數據集中的圖像涉及自然圖像、插圖、文檔和用戶界面等各種領域。PaLI-3 在絕大多數字幕和 VQA 基準上,無論是否有外部 OCR 輸入,都取得了最先進的性能。唯一的例外是 AI2D 和 ChartQA,它們不僅需要理解,還需要對圖表進行強大的推理能力。對於這兩個基準,PaLI-3 稍微落後於 PaLI-X。

另外,研究人員還擴展了 PaLI-3 的功能,使其能夠通過語言類似的輸出來預測分割遮罩。實驗結果表明,對於這種類型的定位任務,對比預訓練要比分類預訓練更爲有效。完整的 PaLI-3 模型能夠在指代表達分割方面稍微優於最先進的方法。

在自然圖像理解部分,研究對 PaLI-3 在通用視覺語言理解任務上進行了評估,包括 COCO 字幕和 VQAv2,儘管與最近的 SOTA 模型相比,PaLI-3 的規模要小得多,但在這些基準上表現非常出色。

在視頻字幕和問答部分,研究人員在 4 個視頻字幕基準上對 PaLI-3 模型進行了微調和評估:MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。然後,對 3 個視頻問題解答基準進行了同樣的測試:NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。儘管沒有使用視頻數據進行預訓練,PaLI-3 仍然以較小的模型規模取得了出色的視頻質量保證結果。

總而言之,在本研究中,研究人員深入研究了 VLM 中圖像編碼器的預訓練,特別是 PaLI 類型的模型。研究首次明確比較了分類預訓練和圖像文本(對比性)預訓練這兩種方法,發現後者可以帶來更好和更高效的 VLM,特別是在定位和文本理解任務方面。

另外,研究人員在論文中指出:“這只是 VLM 的一個小方面,我們希望這項研究和其結果能夠激勵對 VLM 訓練的衆多其他方面進行深入探討。”