☰

一篇推文看一年！Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領域AI實戰」

新智元報道

編輯：LRS

【新智元導讀】10個AI領域，50篇精品論文，每週看一篇，到2026就能成「AI工程」專家！

別再反覆看Transformer之類的古董級論文了，該更新論文清單了！

現行的AI從工程技術角度可以分爲十個領域：前沿大模型、基準評估、提示思維鏈、檢索增強生成、智能體、代碼生成、視覺、聲音、圖像/視頻擴散、微調，每個領域選出5篇代表作和相關工作，看完+實踐=AI全棧大神！

前沿大模型

OpenAI發佈的ChatGPT把大模型帶入普通消費者的日常生活中，旗下的GPT系列模型也一直是行業標杆，其中GPT1/2/3, Codex, InstructGPT, GPT4都有論文，GPT3.5, 4o, o1和o3只有相關的宣發活動。

GPT-4論文鏈接：https://arxiv.org/pdf/2303.08774

Claude 3和Gemini算是OpenAI最大的競爭對手，其論文也值得一讀；模型的最新迭代版本爲Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking/Gemma 2.0。

論文鏈接：https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

另一個分支是開源模型Llama家族，可以分爲1/2/3代；家族樹下的其他子模型還包括Mistral 7B, Mixtral和Pixtral。

論文鏈接：https://arxiv.org/pdf/2407.21783

爆火的DeepSeek V1, Coder, V2, V3在開源大模型也有一席之地，以低成本高效率著稱。

論文鏈接：https://arxiv.org/pdf/2401.02954

最後是Apple Intellgence論文，在Mac和iPhone上都有部署。

論文鏈接：https://arxiv.org/pdf/2407.21075

其他非最前沿的模型也值得了解，包括AI2（旗下的Olmo、Molmo、OlmOE、Tülu 3、Olmo 2）、Grok、Amazon Nova、Yi、Reka、Jamba、Cohere、Nemotron、Microsoft Phi、HuggingFace SmolLM等；Mamba1/2和RWKV有可能在未來發力。

基準和評估

MMLU Pro, GPQA Diamond和BIG-Bench Hard是頂尖AI實驗室常用的知識基準評估。

MMLU-Pro論文鏈接：https://arxiv.org/pdf/2406.01574

MuSR主要評估自然語言敘事中的多步軟推理任務，特點是長上下文，其他基準包括LongBench, BABILong和RULER

論文鏈接：https://arxiv.org/pdf/2310.16049

MATH基準主要關注數學競賽，包括12500個高難度數學題目，每個問題都有完整的逐步解決方案，前沿研究主要關注其子集MATH level 5, AIME, FrontierMath, AMC10/AMC12

論文鏈接：https://arxiv.org/pdf/2103.03874

IFEval評估語言模型的指令遵循能力，主要關注「可自動驗證的指令」，比如「寫超過400字」和「至少提到人工智能3次」等。總共有25個指令類型，構建了越500個提示；其他可用基MT-Bench

論文鏈接：https://arxiv.org/pdf/2311.07911

ARC AGI用一組抽象和推理語料庫（Abstraction and Reasoning Corpus），模擬人類來測試模型的智能程度。

論文鏈接：https://arxiv.org/pdf/1911.01547

提示、上下文學習（ICL）和思維鏈

馬里蘭大學、OpenAI、斯坦福等13個機構的研究人員發佈的「提示詞報告」，對提示技術進行分類，提供了提示工程的最佳實踐和指南，算是目前最全面的提示工程綜述報告。

論文鏈接：https://arxiv.org/pdf/2406.06608

思維鏈（Chain-of-Thought）：在足夠大的語言模型中，只需要在提示詞中加入特定模版，就能引導大模型逐步思考，就能在各種算術、常識和符號推理任務上實現更高的性能，甚至比微調還管用。

論文鏈接：https://arxiv.org/abs/2201.11903

思維樹（Tree of Thoughts）克服了思維鏈只能基於token的、從左到右決策的缺陷，使得語言模型可以通過考慮多種不同的推理路徑和自我評估選擇來決定下一步行動，從而進行有意識的決策，並在必要時進行前瞻或回溯以做出全局選擇；

論文鏈接：https://arxiv.org/pdf/2305.10601

Prompt Tuning不對模型參數進行調整，而是通過反向傳播學習「軟提示」，可以將凍結的模型用於多個下游任務。

論文鏈接：https://aclanthology.org/2021.emnlp-main.243.pdf

自動提示工程師（APE）能夠避免人工編寫低質量提示詞帶來的性能影響，在指令候選池中進行搜索優化，可用於自動生成和選擇指令，最終在19/24個任務上實現了比人類標註指令的性能更好。

論文鏈接：https://arxiv.org/pdf/2211.01910

檢索增強生成（RAG）

RAG是2024年AI工程的核心，主要難點在於信息檢索，可用的技術包括TF-IDF, BM25, FAISS, HNSW等。

2020年，Meta首次提出RAG概念，結合預訓練參數和非參數記憶用於語言生成，其中非參數記憶通過「預訓練神經檢索器」訪問「維基百科的稠密向量」索引獲得，結果在三個開放問答任務上都實現了最佳性能，並且生成的內容更具體、多樣化和符合事實。

論文鏈接：https://arxiv.org/pdf/2005.11401

使用文本嵌入（word embedding）進行「語義文本相似度」計算是一個常見的檢索技術。

METB是一個大規模文本嵌入基準，包括58個數據集和112種語言，結果是沒有某一種文本嵌入方法在所有任務中都佔據絕對主導地位。

論文鏈接：https://arxiv.org/pdf/2210.07316

傳統RAG無法處理處理「以查詢爲中心的摘要」任務，比如「數據集中的主題是什麼？」這種全局問題，檢索需求不明確。

GraphRAG可以根據用戶問題的普遍性和需要索引的源文本數量進行擴展，首先從源文檔中導出實體知識圖譜，然後爲所有密切相關的實體組預生成社區摘要；對於一個問題，每個社區摘要用於生成部分回覆，最後總結給用戶。

論文鏈接：https://arxiv.org/pdf/2404.16130

OpenAI推薦的RAGAS（檢索增強生成評估）是一個用於無參考評估RAG流程的框架，無需人類標註，可以對「檢索系統識別相關和專注上下文段落」和「LLM對檢索文檔忠實度」的能力進行評估。

論文鏈接：https://arxiv.org/pdf/2309.15217

智能體（Agent）

在被Anthropic、Devin和OpenAI採用後，SWE-Bench一躍成爲最具知名度的智能體基準測試（其他基準包括WebArena、SWE-Gym），由來自12個流行Python倉庫的真實GitHub問題和相應拉取請求中的2294個軟件工程問題組成。

給定一個代碼庫以及一個需要解決的問題描述，語言模型的任務是編輯代碼庫以解決該問題，通常需要理解並同時協調多個函數、類甚至文件之間的變化，要求模型能夠與執行環境互動，處理極長的上下文，並進行復雜的推理，而不只是傳統的代碼生成任務，更多的是智能體測試。

論文鏈接：https://arxiv.org/abs/2310.06770

ReAct開啓了一系列關於「工具使用」和「函數調用」的研究，通過與簡單的維基百科API交互，克服了思維鏈推理中普遍存在的幻覺和錯誤傳播問題，生成結果比沒有推理軌跡的模型更具可解釋性。

論文鏈接：https://arxiv.org/pdf/2210.03629

MemGPT提出了虛擬上下文管理技術，智能地管理不同的存儲層次，以便在LLM的有限上下文窗口內有效地提供擴展的上下文，並使用中斷來管理其與用戶之間的控制流。在文檔分析和多會話聊天中展現了記憶、反思和動態演變能力。

論文鏈接：https://arxiv.org/pdf/2310.08560

Voyager是第一個由大型語言模型（LLM）驅動的、在Minecraft中進行終身學習智能體，能夠持續探索世界，獲取多樣化的技能，並在無人干預的情況下進行新的發現。

主要包括三個關鍵組件：自動課程用於最大化探索；一個不斷增長的可執行代碼技能庫，用於存儲和檢索複雜行爲；一種新的迭代提示機制，結合環境反饋、執行錯誤和自我驗證來改進程序。

論文鏈接：https://arxiv.org/pdf/2305.16291

Voyager通過黑箱查詢與GPT-4進行交互，無需對模型參數進行微調；開發的技能具有時間擴展性、可解釋性和組合性，使得智能體的能力迅速增強，並減輕了災難性遺忘。

代碼生成

The Stack項目包含30種編程語言的許可源代碼，大小爲3.1TB，論文描述了數據集的收集過程；通過在不同的Python子集上訓練具有3.5億參數的解碼器，展現了根據文本生成代碼的潛力，僅使用許可數據就可以達到之前模型在HumanEval和MBPP的性能，後續模型發展爲Stack v2和StarCoder

論文鏈接：https://arxiv.org/pdf/2211.15533

開源的代碼模型論文包括 DeepSeek-Coder, Qwen2.5-Coder, CodeLlama；很多人認爲Claude 3.5 Sonnet是最好的代碼模型，但沒有相關論文。

論文鏈接：https://arxiv.org/pdf/2401.14196

HumanEval/Codex論文是GitHub Copilot底層技術解釋，是代碼領域必備知識的基準測試；編碼領域更有名的是SWE-Bench，可以評估大型語言模型在解決真實世界中GitHub軟件問題能力：給定一個代碼庫和一個具體的問題描述，要求語言模型生成一個補丁來解決該問題；其他替代品包括Aider, Codeforces, BigCodeBench, LiveCodeBench和SciCode

Codex論文鏈接：https://arxiv.org/pdf/2107.03374

代碼生成問題有別於自然語言生成問題，需要精確匹配目標語言的語法，識別出常見路徑和邊緣情況，更關注細節。

AlphaCodium論文提供了一種通用的解決方案，基於測試的、多階段的、面向代碼的迭代流程，可以提高LLMs在代碼問題上的性能，在驗證集上將GPT-4的性能從19%提升到了44%

論文鏈接：https://arxiv.org/abs/2401.08500

CriticGPT主要關注代碼生成中的安全問題，可以幫助人類更準確地評估模型編寫的代碼；模型使用RLHF訓練以編寫自然語言反饋；實驗發現模型在63%的情況下比人類的批評結果更好，成功識別出在ChatGPT訓練數據中標記爲「完美無瑕」的數百個錯誤，並且很多都是分佈外的「非代碼任務」。

論文鏈接：https://criticgpt.org/criticgpt-openai/

視覺模型

YOLO不算是基於大模型的工作，但仍然很重要，已經更新到了v11，很多基於Transformer的模型如DETRs目前已經超越了YOLO的性能。

YOLO v1將目標檢測視爲一個迴歸問題，即預測空間上分離的邊界框及其相關的類別概率，通過一個神經網絡即可直接從整張圖像中預測邊界框和類別概率，訓練過程可以進行端到端優化。

基礎的YOLO模型預測速度可以實現每秒45幀，小網絡Fast YOLO可以實現每秒155幀，平均精度比其他實時檢測器高出兩倍。

論文鏈接：https://arxiv.org/pdf/1506.02640

CLIP模型是第一個成功的ViT模型，目前已經被BLIP/BLIP/SigLIP/PaliGemma取代。

CLIP直接從關於圖像的原始文本中學習表徵，監督信號的來源比「固定、預設的對象類別」更廣泛；訓練任務也很簡單，預測圖像描述與哪個圖像匹配，在4億個（圖像，文本）數據對上對模型從頭開始訓練，實現了與原始ResNet-50在ImageNet相當的零樣本準確率；在30多個計算機視覺基準任務上，性能與完全監督的基線模型相當，而不需要特定數據的訓練。

論文鏈接：https://arxiv.org/pdf/2103.00020

MMVP（多模態視覺模式）基準量化了CLIP的核心問題：視覺信息是否足以應對語言描述？

論文鏈接：https://arxiv.org/pdf/2401.06209

論文探索了CLIP的視覺嵌入空間與僅視覺的自監督學習之間的差距，揭示了多模態模型和CLIP的視覺模式存在高度關聯，經常會給出錯誤的答案和幻覺解釋。

Segment Anything Model (SAM)及SAM 2是非常成功的圖像和視頻分割基礎模型，通常與GroundingDINO搭配使用。

研究人員在SAM中構建了迄今爲止最大的分割數據集，包含超過10億個遮罩，1100萬張授權圖像；模型具備零樣本學習能力，可以直接遷移到新的圖像分佈和任務，並且性能與之前的完全監督模型性能相當，甚至更優。

論文鏈接：https://arxiv.org/pdf/2304.02643

聲音模型

OpenAI的Whisper一個相當成功的ASR模型，後續發佈的Whisper v2, v3, distil-whisper以及v3 Turbo都是開放權重但是沒有論文。

Whisper論文鏈接：https://arxiv.org/pdf/2212.04356

在PaLM變爲Gemini之前，AudioPaLM算是谷歌在語音領域的絕唱。

AudioPaLM將基於文本（PaLM-2）和基於語音（AudioLM）的語言模型融合成一個統一的多模態架構，能夠處理和生成文本和語音，下游應用包括「語音識別」和「語音到語音的翻譯」；繼承了AudioLM保持副語言信息（如說話者身份和語調）的能力，以及像PaLM-2這樣的基於文本的大型語言模型中獨有的語言知識。

論文鏈接：https://arxiv.org/pdf/2306.12925

Meta發佈的Llama 3語音模型也可以作爲競品參考。

論文鏈接：https://arxiv.org/pdf/2407.21783

NaturalSpeech是領先的「語音合成」（TTS）方法之一，最新版本爲v3

研究人員在論文中首先基於主觀測量的統計顯著性來定義「人類水平」的語音合成質量，然後利用變分自編碼器（VAE）進行端到端的文本到波形生成，並通過幾個模塊來增強先驗從文本中的能力，以及降低後驗從語音中的複雜性，包括音素預訓練、可微分時長建模、雙向先驗/後驗建模，以及VAE中的記憶機制。

論文鏈接：https://arxiv.org/abs/2205.04421

圖像/視頻擴散模型

Stable Diffusion絕對是最有名的開源文生圖模型，旗下還有SD2, SDXL, SD3模型及論文。

Latent Diffusion模型首次將擴散模型應用於預訓練自編碼器的潛空間中，極大降低了擴散模型的訓練、微調、推理的成本，可以在降低複雜度和保留細節之間達到最優的平衡，並提升視覺保真度。

論文鏈接：https://arxiv.org/pdf/2112.10752

通過在模型架構中引入交叉注意力層，擴散模型就變成了通用條件輸入生成器，可以處理文本或邊界框，實現高分辨率合成。

OpenAI的DALL-E系列文生圖模型有三代，其論文也值得閱讀。

DALL-E 3論文鏈接：https://cdn.openai.com/papers/dall-e-3.pdf

谷歌的文生圖模型Imagen有三代，後續工作爲Ideogram 2.0

Imagen 3論文：https://arxiv.org/abs/2408.07009

一致性模型論文是後續工作LCMs（潛一致性模型）的基礎，解決了由於迭代採樣導致生成速度過慢的問題：直接將噪聲映射到數據來生成高質量樣本，採用多步採樣來提升效率，但樣本質量略有下降；同時支持零樣本數據編輯，如圖像修復、上色和超分辨率，而無需進行顯式訓練，最新版本爲sCMs

論文鏈接：https://arxiv.org/pdf/2303.01469

文本到視頻模型Sora雖然沒有論文，但是其底層原理DiT和開源模仿者OpenSora可以作爲參考。

DiT用一個潛在塊Transformer替換了常用的U-Net主幹網絡，具有更高的Gflops，通過增加Transformer的深度/寬度或增加輸入token的數量，可以進一步降低FID距離分數，在類條件ImageNet 512x512和256x256基準測試中超越所有先前的擴散模型。

DiT論文鏈接：https://arxiv.org/abs/2212.09748

擴散模型同樣可以應用在其他模態上，如Text Diffusion, Music Diffusion

微調

使用LoRA/QLoRA在本地模型和4o模型上進行微調，都已被證明是一種低成本的微調方法。

QLoRA論文鏈接：https://arxiv.org/pdf/2305.14314

QLoRA通過凍結4位量化預訓練語言模型和低秩適配器（LoRA）實現反向傳播，可以在單個48GB GPU上微調一個650億參數的模型，同時保持16位微調任務的性能；最佳模型Guanaco在僅24小時的微調後達到了ChatGPT性能的99.3%

文中還詳細分析了聊天機器人基準測試的侷限性，展示了GPT-4評估是一種廉價且合理的替代人類評估的方法。

DPO（直接偏好優化）是PPO（近端策略優化）的替代方案，開發者更喜歡用DPO，但其性能上略遜一籌，OpenAI也選擇DPO作爲偏好微調方法。

DPO論文鏈接：https://arxiv.org/pdf/2305.18290

基於人類反饋的強化學習（RLHF）是一個複雜且不穩定的過程，需要先訓練一個反映人類偏好的獎勵模型，再通過強化學習對大型無監督語言模型進行微調。

DPO是一種新的獎勵模型參數化方法，可以用簡單的分類損失來解決標準的RLHF問題，穩定、高效且計算成本低，無需在微調過程中從語言模型中抽樣或進行大量的超參數調整；在控制生成內容符合人類偏好方面，DPO的表現超過了基於PPO的RLHF

ReFT（表示微調）不關注某些層，而是關注特徵：在凍結的基礎模型上操作，學習對隱藏表示進行特定任務的干預，可以替代現有的參數高效微調（PEFT）方法，學習到的干預措施比LoRA的效率提升15到65倍。

論文鏈接：https://arxiv.org/pdf/2404.03592

Orca和Orca2項目展現了使用「合成數據」對小型語言模型進行訓練後，可以極大提升模型性能；

Orca 3-AgentInstruct的研究成果再把這個結論向前推進了一步：開發了一個框架，可以從原始數據源大規模生成多樣化和高質量的定製數據集（包括用戶提示和模型回覆），最終吸能在AGIEval上提高了40%，在MMLU上提高了19%，在GSM8K上提高了54%；論文公開了其中100萬個數據對。

報告鏈接：https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/

雖然OpenAI的o1模型使用的強化學習微調仍然存在爭議，但Let's Verify Step by Step論文提供了部分底層原理解釋。

在複雜的多步推理時，研究人員發現「過程監督」顯著優於「結果監督」，可以解決MATH測試集中78%的問題；主動學習（active learning）還能提高過程監督的有效性；文中發佈PRM800K數據集，包含80萬個「步驟級」人類反饋標籤。

論文鏈接：https://arxiv.org/pdf/2305.20050

HuggingFace微調實踐：https://www.philschmid.de/fine-tune-llms-in-2025

參考資料：

https://x.com/DrJimFan/status/1874490807652356377

一篇推文看一年！Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領域AI實戰」

相關資訊