17 篇核心论文 · 7 条设计原则 · 7 个反模式
17 篇论文覆盖 5 个紧密关联的主题,从 Harness 的根本定义到长期稳定性。
Code as Agent Harness(UIUC/Meta/Stanford,arXiv:2605.18747,102页综述覆盖100+论文):代码不再是 LLM 的输出目标,而是智能体推理、行动、环境建模和验证的操作基板。三层架构——Harness Interface(接口层)、Harness Mechanisms(Plan-Execute-Verify + 记忆 + 工具 + 反馈)、Multi-Agent Scaling(共享代码工件协调多智能体)。核心命题:让每个智能体动作都产生可验证的代码工件,将 Agent 从黑箱文本生成器转变为一个可审计、可重放的状态机。
Agent Harness Engineering: A Survey(CMU/Yale/JHU/Amazon 等,TMLR 在审,覆盖170+开源项目):提出 ETCLOVG 七层框架——Execution(执行环境)、Tool(工具接口)、Context(上下文与记忆管理)、Lifecycle(生命周期编排)、Observability(可观测性)、Verification(验证与评估)、Governance(治理与安全)。前三层是结构核心,后三层是控制平面。关键论断:每个 Harness 组件编码了模型"做不到什么"的假设,而这些假设会随模型升级而过时——Harness 需要自简化机制。
小模型通过环境错误反馈迭代自优化,自动生成约束检查代码。14.5次迭代消除所有非法动作。最终产物是纯Python,零推理时LLM依赖。Flash+Harness 打败了裸 Gemini-2.5-Pro。
将 Harness 当做可搜索的代码对象。优化器读取源码+全执行轨迹+历史分数,在文件系统中选择性检索(故意不压缩),发现环境自举等策略。TB2 达 76.4%,在海库4.5上排名第一。
每次 Harness 编辑附"可证伪合约"——改前声明预期改善的指标和幅度,跑完后验证。10轮演化后 TB2: 69.7%→77.0%。收益来自工具+中间件+长期记忆,不是 system prompt。
双层元演化框架。内层 Worker+Evaluator+Evolution Agent 优化单任务 Harness;外层跨任务族优化演化蓝图。目标:对新领域 Harness 适配实现零人工干预。
LLM Agent 从最小初始 Harness 出发,依据自身轨迹挖掘失败模式→提案修改→回归验证。MiniMax M2.5 从40.5%→61.9%(+21.4pp)。Harness 从设计之初就是机器可修改的。
将 Skill 文档视为可训练的外部状态。应用深度学习训练纪律:文本学习率(每步≤4编辑)、验证门控(严格提升才接受)、拒绝编辑缓冲(负梯度记忆)、epoch级慢更新。52/52评测组合全最优。仅需1-4次接受编辑即获显著增益。
完全自监督——不需要任何标签。DPP采样历史困难案例→自验证+自一致性信号诊断失败→成对自偏好选择最佳Harness更新。SWE-Bench Pro: 59%→78%(+19pp),单轮。
记忆是可演化的Python程序——schema+存储逻辑+工作流指令联合进化。不同任务域需要完全不同的存储架构:具身规划用SQLite动作缓存,对话用双ChromaDB+SQLite。
Trace-grounded 诊断修复。HTIR 中间表示将执行轨迹和 Harness 代码统一到可诊断图。步骤级根因归因→层诊断→缺陷合并→范围受控修复补丁。4基准相对提升15.2%-50.0%。Prompt-only修复在TB2上零收益。
有效反馈计算(EFC)= 信息性×有效性×非冗余性×留存性。预测失败率的R²达0.99(原始token/tool call仅≤0.42)。固定预算下改善反馈质量,成功率从0.27→0.90。
210任务审计基准。>50%智能体中程违规仅靠最终输出检查无法发现。多智能体配置使违规率从单智能体的0.91骤降至0.64。最佳系统总分仅0.32——距离安全可靠还差很远。
四种记忆退化机制:压缩损失、干扰排斥、修订累积误差、维护冲击。模型越大不一定越好——GPT-4o在累加器任务上甚至比小模型更差。自主Agent存在写入-读取断层:写了有用文件但不重读。
四层运行时接口适配:环境契约层+过程技能层+动作实现层+轨迹调节层。Qwen3-4B轨迹演化出的Harness可迁移到17个其他模型,平均相对提升88.5%。部分失败可通过接口适配解决无需改模型。
首次让Harness演化进入源码级:路由、钩子排序、状态不变式、调度逻辑。编排器拥有安全门控(健康探测、回滚到last-known-good、用户同意),代码修改代理仅拥有局部编辑动作。单轮+141%相对提升。
Harness更新能力和受益能力是两种无关的能力。Qwen3.5-9B更新Skill的能力与Opus 4.6持平。弱模型瓶颈在"加载Skill"和"遵循Skill",中等能力模型受益最大,强模型因能力饱和边际收益小。
每条原则都有具体论文支撑,有数字,有反例。
来源:Code as Agent Harness, HarnessAudit, HarnessFix
每个智能体动作必须返回机器可验证的工件,非自然语言声明。例如:仿真阶段输出固定 schema 的结构化 metrics + 原始输出文件;优化阶段输出可应用的参数 diff + LLM 推理链原文;设计阶段输出 netlist + 参数 JSON + 确定性生成脚本。
{"dc_gain": 72.3, "ugbw_mhz": 154.2, "phase_margin_deg": 62.1, "convergence": true, "drc_violations": 0}来源:Self-Harness, MOSS, SkillOpt
Skill 文件、Tool 定义、权限策略全部外置为 .md / .py / .yaml,每次修改产生 git diff,附带回归测试套件。Self-Harness 的核心教训:Harness 从设计第一天就要为机器修改而生——可程序化读取、diff、测试、回滚。
来源:AHE (arXiv:2604.25850)
改之前必须记录四要素:(1)改了什么(精确diff)、(2)预期哪个指标改善、(3)改善多少、(4)跑完验证后预测-实际差异反馈回下轮。AHE 证明这消除了 trial-and-error 震荡——无合约时系统在相同(或相反)改动之间反复,无法收敛。
来源:Meta-Harness, EFC
EFC 论文核心数字:标量分数压掉了 ≥58% 的预测力(R² 从 0.99 跌至 ≤0.42)。保留每轮迭代的全部原始数据(netlist 前后对比、仿真波形、DRC 报告、收敛日志、LLM 推理链),故意让目录大于优化器上下文窗口,迫使选择性检索。
来源:MOSS, Harness Updating ≠ Harness Benefit
| 编排器(Orchestrator) | 代码执行器(Code-Modification Agent) |
|---|---|
| 阶段排序、判定、循环退出、交换时机 | 仅拥有局部编辑动作 |
| 健康探测、回滚到 last-known-good、用户同意 | 可插拔的外部 CLI 进程 |
| SkillOpt 调度器担当 | OpenCode 的三个 Tool 担当 |
无论执行器怎么换模型,编排器的安全保证不变。
来源:M-star, Agent Lifespan Engineering
定义一组原语操作(设计参数历史SQL表、电路拓扑向量索引、收敛失败模式堆),暴露 write()/read() 契约,让搜索为每类电路任务自动发现最优存储架构。埋入三阶段健康探测:写入保真度→检索精度→利用率。
来源:EFC Scaling Laws (arXiv:2605.29682)
对每轮仿真结果喂给 Optimizer 之前,检查四项 EFC 因子——信息性(与当前任务相关?)、有效性(来自仿真器输出非LLM推测?)、非冗余性(不重复已有发现?)、留存性(会被后续决策记住?)。任一因子为 0,该反馈事件贡献的有效计算接近 0。固定预算下改善反馈质量:成功率从 0.27→0.90。
| # | 论文 | 机构 | 核心贡献 | 关键数字 |
|---|---|---|---|---|
| 1 | Agent Harness Engineering: A Survey | CMU/Yale/JHU/Amazon 等 | ETCLOVG 七层框架;170+开源项目映射;Harness 是可靠性的约束瓶颈 | Harness-only 改动 → 10× coding 提升 |
| 2 | Code as Agent Harness | UIUC/Meta/Stanford | 代码作为 Agent 运行时操作基板;三层分类法覆盖100+论文 | 102页综述,7领域覆盖 |
| 3 | AutoHarness | Google DeepMind | LLM 自动生成约束代码;小模型+Harness 打败大模型 | 14.5次迭代,100%合法动作 |
| 4 | The Last Harness You'll Ever Build | — | 双层元演化:内层优化单任务Harness,外层跨任务优化演化蓝图 | 理论框架 |
| 5 | Meta-Harness | Stanford/MIT/KRAFTON | 文件系统级别全轨迹保留+搜索;环境自举发现 | TB2: 76.4%;R²: 0.99 vs 0.42(标量) |
| 6 | Agentic Harness Engineering (AHE) | 复旦/北大等 | 可证伪合约驱动 Harness 演化;三类可观测性 | TB2: 69.7%→77.0%(+7.3pp) |
| 7 | Self-Harness | 上海 AI Lab | Agent 从最小 Harness 出发,依自身轨迹改进 | MiniMax M2.5: +21.4pp |
| 8 | RHO: Retrospective Harness Optimization | MSRA/港城大 | 完全自监督,无需标签;DPP+自验证+自偏好 | SWE-Bench Pro: 59%→78%(+19pp) |
| 9 | HarnessFix | 中科院软件所等 | Trace-grounded诊断修复;HTIR中间表示;7层覆盖 | 4基准相对提升15.2%-50.0% |
| 10 | Harness Updating ≠ Harness Benefit | — | 更新能力与受益能力分离;9B模型更新能力持平Opus | Agent能力方差36pp,Evolver仅5.1pp |
| 11 | M-star | 港城大/微软 | 记忆=可演化Python程序;schema+逻辑+指令联合进化 | 8项指标7项最优 |
| 12 | SkillOpt | 微软/上海交大/同济/复旦 | 文本学习率+验证门控+拒绝缓冲+epoch元更新 | 52/52全最优;平均+23.5分 |
| 13 | Life-Harness | 北大 | 四层运行时接口适配;从小模型轨迹演化,跨模型迁移 | 126组合116改善;平均+88.5% |
| 14 | MOSS | 中科大/港科大/浸会 | 源码级Harness自演化;编排器-执行器安全分离 | 单轮+141%相对提升 |
| 15 | Scaling Laws for Agent Harnesses (EFC) | 哈工大 | 有效反馈计算量;四项因子乘积度量;成功率的power-law模型 | R²=0.99;改善质量→成功率0.27→0.90 |
| 16 | Agent Lifespan Engineering | UT Austin | AgingBench;四种记忆退化机制;行为vs事实发散 | 14模型×7场景×8-200轮 |
| 17 | Auditing Agent Harness Safety | UCSB | 轨迹级安全审计;210任务基准;多智能体安全面扩大 | >50%违规发生在中程;最佳总分仅0.32 |