代码智能体（Coding Agent）相关论文

本文整理了关于“Coding Agent / LLM-based agent” 的重要论文。更新日期：2025年10月。

本文内容

工作的阶段划分
开创性与基石性论文
基础模型训练
1. DeepSeek-R1（DeepSeek，2025.01）
context-engineering / in-context learning
Agent 执行框架，工具使用训练
推理策略与规划
自我改进与持续学习（Self-verification / Curriculum / Continual）
协同与多智能体（Orchestration, Multi-agent）
评估
开发平台
1. OpenHands
其他论文
Survey
其他成果
其他 Survey 提及论文

工作的阶段划分

代码智能体相关工作，主要涉及以下几个方面。

数据与语料（Data / Preproc）
预训练（Pretraining）
指令调优 / 微调（Instruction tuning / Fine-tuning / RLHF）
工具使用训练（Tool-learning / API call learning / self-supervised）
推理策略与规划（Prompting, CoT, ReAct, ToT, Planning）
代码生成与执行（PAL、程序辅助推理、沙箱执行）
自我改进与持续学习（Self-verification / Curriculum / Continual）
协同与多 agent（Orchestration, Multi-agent）
评估与基准（Benchmarks, metrics for multi-step/tool-use）
安全、鲁棒性与可解释性（Safety / Trust / Verification）
工具化标准与工程（Protocols、MCP、IDE 集成、deployment & efficiency）

开创性与基石性论文

这些论文奠定了大模型用于代码生成和理解的基础。

Codex (OpenAI，2021.07)

论文：⭐ Evaluating Large Language Models Trained on Code (Codex) （2021.07，OpenAI）
核心贡献：
1. 首次展示了在大量代码上微调的大型语言模型（基于GPT-3）在代码生成方面的强大能力，并催生了后来的产品GitHub Copilot。
2. 引入了HumanEval基准，成为了该领域的标准评估数据集。（注：目前 HumanEval 数据集已达到评估能力的饱和点）
关键词：GitHub Copilot, 代码生成, HumanEval

AlphaCode (DeepMind，2022.03)

论文：⭐ Competition-Level Code Generation with AlphaCode （2022.03，Google）
核心贡献：展示了在大规模数据上训练的模型可以解决复杂的竞争性编程问题，其性能达到了人类参赛者的平均水平。它采用了大规模的采样与过滤策略。
关键词：竞争性编程, 大规模采样

Code Llama (Meta，2023.08)

论文：⭐ Code Llama: Open Foundation Models for Code （2023.08，Meta）
核心贡献：发布了基于Llama 2的一系列开源代码专用模型（7B, 13B, 34B参数），支持代码生成、填充、指令跟随和长上下文理解，极大地推动了开源社区的发展。
关键词：开源, Llama, 代码填充, 长上下文

其他

Program Synthesis with Large Language Models （2021.08，Google）
1. 系统分析并优化了大语言模型（LLMs）在程序合成（Program Synthesis）任务中的应用，明确了 LLMs 在代码生成中的能力边界、关键挑战及有效改进策略，为基于 LLMs 的代码生成技术提供了理论参考与实践指南。
2. 其中包含 MBPP（Mostly Basic Programming Problems）评估集。

基础模型训练

DeepSeek-R1（DeepSeek，2025.01）

⭐ DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning （2025.01，DeepSeek）
1. 探索纯强化学习提升 LLMs 推理能力的潜力：提出 DeepSeek-R1-Zero 模型，通过纯强化学习直接在基础模型上训练，无需监督微调数据，在 AIME 2024 等推理基准测试中表现出色，证明了强化学习在提升推理能力方面的巨大潜力。
2. 提出结合冷启动数据和多阶段训练的推理模型 DeepSeek-R1：针对 DeepSeek-R1-Zero 存在的可读性差、语言混杂等问题，DeepSeek-R1 引入冷启动数据和多阶段训练，包括两次 RL 和两次 SFT，解决了上述问题并进一步提升了推理性能，在多个推理任务上达到了与 OpenAI-o1-1217 相当的性能。
3. 探索推理能力迁移的蒸馏技术：将 DeepSeek-R1 的推理能力蒸馏到小型模型，如 Qwen 和 Llama 系列，显著提升了这些小型模型的推理性能，为降低计算成本和部署大规模模型提供了可能。

context-engineering / in-context learning

目前很多 Agent 是基于的 LLMs 的 in-context 学习能力实现的，可以算是 Context-Engineering。

⭐ Language Models are Few-Shot Learners 论文 arXiv:2005.14165 的 Semantic Scholar 引用数（2020.05，OpenAI）

Agent 执行框架，工具使用训练

这些论文提出了构建能够执行复杂任务的代码智能体的具体架构和方法。

ReAct (Google Research，2022.10)

论文：⭐ ReAct: Synergizing Reasoning and Acting in Language Models （2022.10，Google）
核心贡献：虽然 ReAct 范式（Reason + Act）并非专属于代码领域，但它对代码智能体至关重要 —— 它能让模型生成推理轨迹和具体动作（如调用工具、执行代码），这对于调试、使用 API 等任务极为关键；该范式通过 “思考→行动→观测→思考” 的循环交替输出推理与动作，使模型在交互环境中一边推理一边执行操作，同时提升了决策的可追溯性。
关键词：推理-行动协同, 工具使用

Toolformer (Meta，2023.02)

论文：⭐ Toolformer: Language Models Can Teach Themselves to Use Tools （2023.02，Meta）
核心贡献：提出了一种让语言模型通过自监督学习学会使用外部工具（如计算器、搜索引擎、代码解释器）的方法。模型学会了在何时、如何调用哪个工具API。
关键词：工具学习, 自监督, API调用

SWE-agent (Princeton，2024.05)

论文标题：⭐ 论文：SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering （2024.05，Princeton）
代码：SWE-agent/SWE-agent
核心贡献：提出并验证了代理—计算机接口（ACI）这一概念：通过精心设计的ACI，能够在无需修改基础语言模型权重的前提下显著提升语言模型代理的表现。
关键词：代理-计算机接口（ACI, Agent-Computer Interface），SWE-bench，自动化软件工程（Automated Software Engineering）
相关链接：mini-SWE-agent ：The 100 line AI agent that solves GitHub issues & more

推理策略与规划

运用不同的 Prompting 方法和过程，来提升基础 LLMs 的推理能力。

CoT（2022.01），Least-to-Most（2022.05）

⭐Chain-of-Thought Prompting Elicits Reasoning in Large Language Models （2022.01，Google）
1. 发现让模型输出中间推理步骤（chain-of-thought）能大幅提高多步问题的解答准确率，奠定了可解释性推理提示的核心方法。
⭐Self-Consistency Improves Chain of Thought Reasoning in Language Models （2022.03，Google）
1. 提出一种 “自一致性”（Self-Consistency）策略，通过生成多条不同的 Chain-of-Thought（CoT）推理路径并筛选一致答案，显著提升了语言模型在多步推理任务中的准确性与鲁棒性。
⭐Least-to-Most Prompting Enables Complex Reasoning in Large Language Models （2022.05，-）
1. 将复杂问题分解为有序子问题逐步求解的提示技巧，对任务分解与规划类 agent 非常有用。

理论解释：

The Expressive Power of Transformers with Chain of Thought （2023.10，New York University）
1. 首次从理论上证明了“加入思维链（Chain of Thought）步骤能显著提升 Transformer 的表达与计算能力”，并且当中间推理步数足够多时，Transformer 在表达能力上可达到多项式时间（P）级别，初步揭示了思维链提升模型推理能力的本质原因。

Generative Agents（2023.04），

⭐Generative Agents: Interactive Simulacra of Human Behavior （2023.04，Stanford）
1. 提出 “生成式智能体（Generative Agents）” 概念，通过整合记忆、规划与反射机制，构建出能模拟人类日常行为、进行长期互动并自主演化社会动态的智能体，为交互式 AI 模拟提供了新范式。

ToT（2023.05）

⭐Tree of Thoughts: Deliberate Problem Solving with Large Language Models （2023.05，Princeton, Google）
1. 提出 “思维树（Tree of Thoughts）” 框架，突破大语言模型传统的线性推理模式，通过让模型探索多路径思维分支并迭代评估，显著提升其在复杂推理任务中的问题解决能力与准确性。

其他

Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents （2022.01，UC Berkeley）
1. 提出 “语言模型作为零样本规划器（LM-ZeroShot-Planner）” 的创新范式，首次系统性验证了预训练大语言模型（LLMs）无需任务特定训练或微调，即可直接为具身智能体（如机器人、虚拟交互智能体）提取可执行的行动知识，解决了传统具身规划依赖人工设计规则或大量标注数据的痛点。
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks （2022.11，University of Waterloo）
1. 提出 Program of Thoughts (PoT) Prompting 方法，将语言模型的逻辑推理与程序化计算解耦，通过生成可执行代码来完成数值推理任务，从而显著提升复杂数学问题的解题准确率。

自我改进与持续学习（Self-verification / Curriculum / Continual）

Reflexion（2023.03）

⭐论文：Reflexion: Language Agents with Verbal Reinforcement Learning （2023.03，Northeastern University）
代码：Reflexion
1. 让 agent 在交互后基于观察生成“反思”并改进策略，直接相关于自我验证与持续学习主题。

Self-Refine（2023.03）

⭐Self-Refine: Iterative Refinement with Self-Feedback （2023.03，CMU 等）
1. 提出了一种无需监督训练数据、额外训练或强化学习的 Self-Refine 方法，通过让单一大型语言模型（LLM）对自身输出进行迭代反馈和细化，提升任务性能。

Self-Debug （2023.04）

Teaching Large Language Models to Self-Debug （2023.04，Google）
1. 提出一种训练方法，使大语言模型能够在生成代码后自动识别并纠正自身错误，从而显著提升代码生成与问题求解的可靠性与正确率。

其他

Voyager: An Open-Ended Embodied Agent with Large Language Models （2023.05，NVIDIA 等）
1. 在 Minecraft 环境中提出自我改进的代理示例，利用 LLM 生成代码并在外部执行环境中测试与迭代，实现基于工具的持续技能学习与能力累积。
Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step （2024.02，UC San Diego）
VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation （2025.04，Stanford University）
1. （EDA 领域）提出 VeriCoder 框架，在大语言模型生成 RTL（Register-Transfer-Level）代码后引入功能正确性验证与反馈环路，使模型能够自动检测并修复逻辑错误，从而提升硬件代码生成的可靠性与精确度。

协同与多智能体（Orchestration, Multi-agent）

Improving Factuality and Reasoning in Language Models through Multiagent Debate （2023.05，MIT）
1. 提出多智能体辩论（Multiagent Debate）框架，有效提升了语言模型在事实性和推理任务上的表现，突破了单模型依赖自身知识的局限。
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate （2023.05，清华大学，上海交通大学，腾讯）
1. 将多智能体辩论（Multi-Agent Debate）机制应用于激发大语言模型的发散性思维，突破了单模型易陷入思维局限、产出同质化内容的问题。
论文：AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation （2023.08，微软等）
代码：autogen
1. 提出AutoGen 框架，通过标准化多智能体对话流程与灵活的交互机制，降低了下一代大语言模型（LLM）复杂应用的开发门槛，推动了多智能体技术的实用化落地。
2. 后续工作转移阵地了： microsoft/agent-framework （microsoft/semantic-kernel 也同样转移了）
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate （2023.08，清华大学等）
1. 提出ChatEval 框架，将多智能体辩论机制引入大语言模型（LLM）评估场景，解决了传统单模型评估存在的主观性强、一致性低等问题，显著提升了评估结果的可靠性与准确性。
论文：AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors （2023.08，清华大学）
代码：AgentVerse
1. 提出AgentVerse 框架，该框架不仅为多智能体协作提供了灵活、可扩展的开发与部署平台，还通过系统性探索，揭示了多智能体交互中涌现的复杂群体行为，推动了多智能体系统从 “功能性实现” 向 “行为机制研究” 的深化。

其他：

Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents （2023.06，University of Alberta）
Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model （2023.06，北京大学）
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving （2024.05，Bangladesh University of Engineering and Technology）

评估

HumanEval，MBPP 见上。

SWE-bench（2023.10）

论文标题：⭐ SWE-bench: Can Language Models Resolve Real-World GitHub Issues? （2023.10，Princeton）
核心贡献：提出了一个衡量语言模型解决真实世界软件工程问题能力的基准，其核心创新在于从开源项目中提取已修复的GitHub问题作为评估任务。
关键词：SWE-bench、软件工程、GitHub问题、代码修复、评估基准。
相关链接：
1. Leaderboards
2. OpenAI 提出的 SWE-bench Verified

LiveCodeBench（2024.03）

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code （2024.03，UC Berkeley）
1. 提出LiveCodeBench 基准测试集，针对现有代码评估基准 “数据污染严重、任务场景单一、评估维度片面” 的关键痛点，构建了一套全面、无污染的大语言模型（LLMs）代码能力评估体系，为 LLM 代码能力的客观、可靠评测提供了新标杆。
2. Leaderboard by Artificial Analysis

其他

论文：Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks （2025.05，字节）
论文：Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation （2025.05，ONEKQ Lab, USA）
terminal-bench ：A benchmark for LLMs on complicated tasks in the terminal
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution （2024.08，-）
论文：GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging （2025.08，中国科学院大学，北邮）
代码：GitTaskBench ：Repo-level benchmark for real-world Code Agents: from repo understanding → env setup → incremental dev/bug-fixing → task delivery, with cost-aware α metric.
论文：ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code （2023.11，耶鲁大学，南京大学，北京大学）
代码：gersteinlab/ML-bench

Trends

Many older benchmarks (HumanEval, MBPP) suffer from saturation: top models approach near-perfect performance, making differentiation harder.
A shift toward project-level, multi-step, task dependency, framework-level benchmarks (like Web-Bench) is emerging to better reflect real software engineering.
Benchmarks that include multilingual (non-Python) tasks (e.g. CRUXEval-X) help test LLM generality across languages.
Using tests as prompts encourages models to reason from specifications (rather than purely via natural language prompts).

开发平台

OpenHands

论文：OpenHands: An Open Platform for AI Software Developers as Generalist Agents （2024.07，UIUC等）
代码：OpenHands ：OpenHands: Code Less, Make More
1. 发布了面向 LLM 代理的开源平台，提供标准化 API、执行追踪与基准工具，降低构建与评估代理系统的工程门槛。

其他平台（部分列出，仅供对比参考）：

claude-code
Github Copilot
cursor
gemini-cli
Devin
Aider ：AI Pair Programming in Your Terminal
cline
continue
AutoGPT ：Build, Deploy, and Run AI Agents
Trae（字节）
通义灵码（阿里）
文心快码（百度）
CodeGeeX（智谱 AI）
CodeBuddy（腾讯）

其他论文：

论文：AutoAgents: A Framework for Automatic Agent Generation （2023.09，北京大学）
代码：Link-AGI/AutoAgents ：Generate different roles for GPTs to form a collaborative entity for complex tasks.
1. 提出了一种 动态生成和协调多专业智能体 的框架，基于任务驱动的自适应团队构建和观察者角色的反思机制，实现了基于LLM的自动代理生成与协作优化，突破了传统预定义智能体的局限性。
论文：Executable Code Actions Elicit Better LLM Agents （2024.02，University of Illinois Urbana-Champaign）
代码：code-act
1. 提出了 CodeAct 框架，通过将大语言模型（LLM）生成的操作整合为可执行的 Python 代码（use executable Python code to consolidate LLM agents actions into a unified action space）。
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? （2024.03，）
1. 提出了WorkArena，一个基于 ServiceNow 平台的33个任务的远程托管基准测试。引入BrowserGym，这是一个用于设计和评估此类代理的环境，提供了一套丰富的操作和多模态观察。
GPTSwarm: Language Agents as Optimizable Graphs （2024.02，King Abdullah University of Science and Technology）

其他论文

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks （2020.05，Meta）
1. 提出将参数化语言模型与外部检索器和非参数记忆结合的架构，使模型在生成时能够检索并引用最新事实，成为检索增强生成（RAG）范式的基石。
WebGPT: Browser-Assisted Question-Answering with Human Feedback （2021.12，OpenAI）
1. 演示了让模型通过浏览器检索、跟进链接并引用来源的能力，并结合人类反馈提升答案质量，为实时网页检索作为“工具”接入 LM 提供早期范例。
Training Language Models to Follow Instructions with Human Feedback （2022.03，OpenAI）
1. 提出 “基于人类反馈的指令微调（RLHF）” 关键范式，通过让语言模型学习人类偏好来对齐其输出与人类意图，有效解决了模型输出不准确、有害或不符合指令的问题，为实用化大语言模型奠定了核心技术基础。
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances （2022.04，Google）
1. 将语言输出与机器人可执行能力（affordances）对齐，提出以可行动作为约束的映射方法，提高现实世界指令到动作的可行性与安全性。
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language （2022.04，-）
1. 展示如何以对话方式把不同模态与模型组合，为多模态 agent 与工具路由设计提供思路。
Emergent Abilities of Large Language Models （2022.06，-）
1. 讨论模型随规模增长出现的“突现”能力，帮助理解大模型在 agent 角色上行为差异与能力边界。
The Alignment Problem from a Deep Learning Perspective （2022.09，-）
1. 聚焦对话安全、约束和基于外部工具的安全策略评估，对现实系统部署至关重要。
PAL: Program-Aided Language Models （2022.11，-）
1. 提出生成可执行代码并交由外部运行时执行的范式（PAL），将精确计算与验证交给确定性工具，从而显著降低数值与逻辑错误。
HuggingGPT: Solving AI Tasks with ChatGPT and Its Friends in Hugging Face （2023.03，-）
1. 将语言模型作为中央协调者，负责规划与分派任务并整合各领域模型输出，提出多模型编排的工程化框架。
ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases （2023.06，-）
1. 构建大规模合成工具使用数据并用于微调，证明小型模型通过合成案例也能获得通用工具调用能力，便于低成本部署。
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models （2024.02，DeepSeek）
1. 提出 “DeepSeekMath” 开放数学大模型，通过构建高质量数学训练数据、优化训练策略及引入多阶段推理范式，显著突破了开放语言模型在复杂数学推理任务（如竞赛级数学题）上的性能上限，为开源数学领域 LLM 树立了新基准。

Survey

论文：A Survey on Large Language Model based Autonomous Agents （2023.08，人民大学）
代码：Paitesanshi/LLM-Agent-Survey
Augmented Language Models: a Survey （2023.02，Meta）
The Rise and Potential of Large Language Model Based Agents: A Survey （2023.09，复旦大学）
Understanding the planning of LLM agents: A survey （2024.02，中国科技大学，华为）
Large Language Models: A Survey （2024.02，Amazon 等）
1. 系统综述了大语言模型的架构、训练与应用，并对外部工具集成与检索增强工作流作出深入总结，是入门与参考重要资料。
论文：A Review of Prominent Paradigms for LLM-Based Agents: Tool Use (Including RAG), Planning, and Feedback Learning （2024.06，Xinzhe Li）
代码：xinzhel/LLM-Agent-Survey
1. 综合比较了 agent 型 LLM 的主要范式并提出统一分类，帮助研究者选择与组合方法以应对不同应用场景。
zjunlp/LLMAgentPapers ：Must-read Papers on LLM Agents.
论文：A Survey on Code Generation with LLM-based Agents （2025.08，北京大学）
代码：JiaruQian/awesome-llm-based-agent4code

和 Context，Prompt 相关：

A Survey on In-context Learning （2023.01，北京大学）
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications （2024.02，Indian Institute of Technology Patna）

其他成果

以下仅是初步列表，后续将根据分类和论文的影响力增删

TOOLVERIFIER: Generalization to New Tools via Self-Verification （2024.02，-）
1. 通过自我验证机制提升模型在面对新工具时的选择与参数生成鲁棒性，降低错误调用风险。
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning （2025.05，Author(s)）
1. 探讨将强化学习用于代理式推理与工具整合，优化工具选择与长期决策的协同策略，提升在复杂任务中的自适应能力。
A Self-Improving Coding Agent （2025.04，-）
1. 提出自我改进的编码代理框架，结合运行时反馈与自动化评测实现持续学习与能力提升，降低人工干预需求。
CodeSim: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging （2025.02，-）
1. 介绍基于仿真驱动的多代理代码生成与调试流程，通过模拟规划提升协作式问题求解与调试效率。
CodeCoR: An LLM-Based Self-Reflective Multi-Agent Framework for Code Generation （2025.01，-）
1. 提出自反思的多代理代码生成框架，代理在生成后进行反思与自我修正，从而提升代码质量与鲁棒性。
AdaCoder: An Adaptive Planning and Multi-Agent Framework for Function-Level Code Generation （2025.04，-）
1. 提出一种具备自适应规划能力的多智能体框架（AdaCoder），用于实现函数级别的代码生成，以提升代码生成的准确性与适配性。
MARCO: A Multi-Agent System for Optimizing HPC Code Generation Using Large Language Models （2025.05，-）
1. 提出一种基于大型语言模型的多智能体系统（MARCO），用于优化高性能计算（HPC）领域的代码生成，以提升 HPC 代码的性能、效率与领域适配性。
AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers （2025.04，-）
1. 提出一种基于大型语言模型（LLM）的智能体框架（AutoP2C），可从学术论文的多模态内容（如文本、公式、图表）中生成代码仓库，实现学术成果到可执行代码的高效转化。
ResearchCodeAgent: Multi-Agent System for Automated Codification of Research Methodologies （2025.04，-）
1. 提出一种多智能体系统（ResearchCodeAgent），可实现研究方法的自动化代码转化，将学术研究中描述的方法论流程转化为可执行代码，提升研究成果落地与复现效率。
DocAgent: A Multi-Agent System for Automated Code Documentation Generation （2025.04，-）
1. 提出一种多智能体系统（DocAgent），用于实现代码文档的自动化生成，解决人工编写文档效率低、与代码同步性差的问题，提升文档的准确性、完整性与实用性。
SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents （2025.08，-）