Agent Harness 设计综述

17 篇核心论文 · 7 条设计原则 · 7 个反模式

系统边界 · 自动生成 · 失败修复 · 模块演化 · 长期可靠性 AS_OF: 2026-06-13 纯综述
EXECUTIVE SUMMARY

核心结论

Agent 的上限不是模型决定的,是 Harness 决定的。同样的模型,只改 Harness(不改权重),coding benchmark 提升 10 倍;GPT-5.2 从 52.8% → 66.5%(+13.7pp),纯靠 prompt 结构 + 中间件 + 自验证钩子。这些 Harness-only 的收益远超典型模型升级的 2-4pp。
17
核心论文
7
设计原则
7
反模式
5
研究主题
≥50%
中程违规靠最终输出发现不了
PART 1

研究格局(按主题组织)

17 篇论文覆盖 5 个紧密关联的主题,从 Harness 的根本定义到长期稳定性。

主题 A:Harness 的根本定义与哲学转向

Code as Agent Harness(UIUC/Meta/Stanford,arXiv:2605.18747,102页综述覆盖100+论文):代码不再是 LLM 的输出目标,而是智能体推理、行动、环境建模和验证的操作基板。三层架构——Harness Interface(接口层)、Harness Mechanisms(Plan-Execute-Verify + 记忆 + 工具 + 反馈)、Multi-Agent Scaling(共享代码工件协调多智能体)。核心命题:让每个智能体动作都产生可验证的代码工件,将 Agent 从黑箱文本生成器转变为一个可审计、可重放的状态机。

Agent Harness Engineering: A Survey(CMU/Yale/JHU/Amazon 等,TMLR 在审,覆盖170+开源项目):提出 ETCLOVG 七层框架——Execution(执行环境)、Tool(工具接口)、Context(上下文与记忆管理)、Lifecycle(生命周期编排)、Observability(可观测性)、Verification(验证与评估)、Governance(治理与安全)。前三层是结构核心,后三层是控制平面。关键论断:每个 Harness 组件编码了模型"做不到什么"的假设,而这些假设会随模型升级而过时——Harness 需要自简化机制。

工程阶段演进:Prompt Engineering(2022-2024,优化单一文本输入)→ Context Engineering(2025,管理多信息流注入上下文窗口)→ Harness Engineering(2026,基础设施层维护状态、中介工具、注入反馈、执行约束、验证进展)。每个阶段内含前一阶段,边际工程努力的重心在不断上移。

主题 B:自动化 Harness 生成与演化

AutoHarness(DeepMind)

小模型通过环境错误反馈迭代自优化,自动生成约束检查代码。14.5次迭代消除所有非法动作。最终产物是纯Python,零推理时LLM依赖。Flash+Harness 打败了裸 Gemini-2.5-Pro。

Meta-Harness(Stanford/MIT)

将 Harness 当做可搜索的代码对象。优化器读取源码+全执行轨迹+历史分数,在文件系统中选择性检索(故意不压缩),发现环境自举等策略。TB2 达 76.4%,在海库4.5上排名第一。

AHE(复旦/北大)

每次 Harness 编辑附"可证伪合约"——改前声明预期改善的指标和幅度,跑完后验证。10轮演化后 TB2: 69.7%→77.0%。收益来自工具+中间件+长期记忆,不是 system prompt。

The Last Harness You'll Ever Build

双层元演化框架。内层 Worker+Evaluator+Evolution Agent 优化单任务 Harness;外层跨任务族优化演化蓝图。目标:对新领域 Harness 适配实现零人工干预。

Self-Harness(上海AI Lab)

LLM Agent 从最小初始 Harness 出发,依据自身轨迹挖掘失败模式→提案修改→回归验证。MiniMax M2.5 从40.5%→61.9%(+21.4pp)。Harness 从设计之初就是机器可修改的。

主题 C:技能(Skill)作为外部化可训练状态

SkillOpt(微软/上海交大/同济/复旦)

将 Skill 文档视为可训练的外部状态。应用深度学习训练纪律:文本学习率(每步≤4编辑)、验证门控(严格提升才接受)、拒绝编辑缓冲(负梯度记忆)、epoch级慢更新。52/52评测组合全最优。仅需1-4次接受编辑即获显著增益。

RHO(MSRA/港城大)

完全自监督——不需要任何标签。DPP采样历史困难案例→自验证+自一致性信号诊断失败→成对自偏好选择最佳Harness更新。SWE-Bench Pro: 59%→78%(+19pp),单轮。

M-star(港城大/微软)

记忆是可演化的Python程序——schema+存储逻辑+工作流指令联合进化。不同任务域需要完全不同的存储架构:具身规划用SQLite动作缓存,对话用双ChromaDB+SQLite。

主题 D:Harness 诊断、审计与效率度量

HarnessFix(中科院软件所)

Trace-grounded 诊断修复。HTIR 中间表示将执行轨迹和 Harness 代码统一到可诊断图。步骤级根因归因→层诊断→缺陷合并→范围受控修复补丁。4基准相对提升15.2%-50.0%。Prompt-only修复在TB2上零收益。

EFC Scaling Laws(哈工大)

有效反馈计算(EFC)= 信息性×有效性×非冗余性×留存性。预测失败率的R²达0.99(原始token/tool call仅≤0.42)。固定预算下改善反馈质量,成功率从0.27→0.90。

HarnessAudit(UCSB)

210任务审计基准。>50%智能体中程违规仅靠最终输出检查无法发现。多智能体配置使违规率从单智能体的0.91骤降至0.64。最佳系统总分仅0.32——距离安全可靠还差很远。

主题 E:生命周期管理与长期稳定性

Agent Lifespan Engineering(UT Austin)

四种记忆退化机制:压缩损失、干扰排斥、修订累积误差、维护冲击。模型越大不一定越好——GPT-4o在累加器任务上甚至比小模型更差。自主Agent存在写入-读取断层:写了有用文件但不重读。

Life-Harness(北大)

四层运行时接口适配:环境契约层+过程技能层+动作实现层+轨迹调节层。Qwen3-4B轨迹演化出的Harness可迁移到17个其他模型,平均相对提升88.5%。部分失败可通过接口适配解决无需改模型。

MOSS(中科大/港科大)

首次让Harness演化进入源码级:路由、钩子排序、状态不变式、调度逻辑。编排器拥有安全门控(健康探测、回滚到last-known-good、用户同意),代码修改代理仅拥有局部编辑动作。单轮+141%相对提升。

Harness Updating ≠ Harness Benefit

Harness更新能力和受益能力是两种无关的能力。Qwen3.5-9B更新Skill的能力与Opus 4.6持平。弱模型瓶颈在"加载Skill"和"遵循Skill",中等能力模型受益最大,强模型因能力饱和边际收益小。

PART 2

好 Harness 的 7 条设计原则

每条原则都有具体论文支撑,有数字,有反例。

1 每步产出可验证的代码工件(Code-First Auditability)

来源:Code as Agent Harness, HarnessAudit, HarnessFix

每个智能体动作必须返回机器可验证的工件,非自然语言声明。例如:仿真阶段输出固定 schema 的结构化 metrics + 原始输出文件;优化阶段输出可应用的参数 diff + LLM 推理链原文;设计阶段输出 netlist + 参数 JSON + 确定性生成脚本。

可接受:{"dc_gain": 72.3, "ugbw_mhz": 154.2, "phase_margin_deg": 62.1, "convergence": true, "drc_violations": 0}
不可接受:"仿真通过了,性能看起来不错。"

2 Harness 必须是可版本化、可机器修改的独立文件

来源:Self-Harness, MOSS, SkillOpt

Skill 文件、Tool 定义、权限策略全部外置为 .md / .py / .yaml,每次修改产生 git diff,附带回归测试套件。Self-Harness 的核心教训:Harness 从设计第一天就要为机器修改而生——可程序化读取、diff、测试、回滚。

3 每次 Harness 编辑附可证伪合约(Falsifiable Contract)

来源:AHE (arXiv:2604.25850)

改之前必须记录四要素:(1)改了什么(精确diff)、(2)预期哪个指标改善、(3)改善多少、(4)跑完验证后预测-实际差异反馈回下轮。AHE 证明这消除了 trial-and-error 震荡——无合约时系统在相同(或相反)改动之间反复,无法收敛。

4 全执行轨迹保留在文件系统,不压缩为标量分数

来源:Meta-Harness, EFC

EFC 论文核心数字:标量分数压掉了 ≥58% 的预测力(R² 从 0.99 跌至 ≤0.42)。保留每轮迭代的全部原始数据(netlist 前后对比、仿真波形、DRC 报告、收敛日志、LLM 推理链),故意让目录大于优化器上下文窗口,迫使选择性检索。

5 编排器与代码执行器严格分离

来源:MOSS, Harness Updating ≠ Harness Benefit

编排器(Orchestrator)代码执行器(Code-Modification Agent)
阶段排序、判定、循环退出、交换时机仅拥有局部编辑动作
健康探测、回滚到 last-known-good、用户同意可插拔的外部 CLI 进程
SkillOpt 调度器担当OpenCode 的三个 Tool 担当

无论执行器怎么换模型,编排器的安全保证不变。

6 记忆是可演化的编程接口,不是固定数据存储

来源:M-star, Agent Lifespan Engineering

定义一组原语操作(设计参数历史SQL表、电路拓扑向量索引、收敛失败模式堆),暴露 write()/read() 契约,让搜索为每类电路任务自动发现最优存储架构。埋入三阶段健康探测:写入保真度→检索精度→利用率。

7 优化 η = 有效反馈 / 原始开销(EFC Efficiency)

来源:EFC Scaling Laws (arXiv:2605.29682)

对每轮仿真结果喂给 Optimizer 之前,检查四项 EFC 因子——信息性(与当前任务相关?)、有效性(来自仿真器输出非LLM推测?)、非冗余性(不重复已有发现?)、留存性(会被后续决策记住?)。任一因子为 0,该反馈事件贡献的有效计算接近 0。固定预算下改善反馈质量:成功率从 0.27→0.90

PART 3

绝对不要做的事(7 个反模式)

1 用自然语言代替结构化工件

表现:Forge 后输出"我调整了输入差分对尺寸改善增益"而不给具体新参数。
为何致命:无法 diff、无法重放、无法验证。审计通道无法检测"声明"与"实际"之间的差异。
规则:禁止任何 Tool 返回不含结构化数据的自然语言作为唯一输出。

2 将反馈信号压缩为单一标量分数

表现:只回传"FOM = 0.73"给 Optimizer。
为何致命:EFC 论文证明标量压下损失了 ≥58% 的预测力。Optimizer 无法从标量推断哪个设计决策导致了改善或退化。
规则:全设计状态 + 全仿真输出 + 全DRC报告 + 全推理链保留到文件系统。

3 将 Harness 配置硬编码在 Prompt 内

表现:在 System Prompt 里写"如果 DRC 违规 > 0 则采用保守裕度策略"。
为何致命:无法被 SkillOpt 自动演化、无法 git 追踪、无法被审计通道检查。
规则:所有策略、技能、约束必须外部化为可版本化文件,通过文件系统引用加载。

4 盲试式 Harness 调优,无可证伪合约

表现:"收敛问题减少了,可能是那个 prompt 改动起了作用,可能不是,继续改吧。"
为何致命:AHE 证明无合约时系统在相同(或相反)改动之间反复震荡,无法收敛。
规则:每次 Harness 修改记录四要素(改了什么、预期什么指标、预期多少、实际多少)。

5 依赖 Agent 自报作为正确性验证

表现:最终输出检查通过了,认为整个流程安全合法。
为何致命:HarnessAudit 证明 >50% 的违规发生在中程(中间步骤的错误工具调用、越权文件访问),永远不会出现在最终输出。
规则:在每个工具调用点注入 Harness 级别审计,独立于 Agent 自报。

6 将进化模型和任务解决模型混用同一预算

表现:每次 Skill 改进都跑完整 21 电路评估,还用最贵模型。
为何致命:Skill 更新能力与模型规模无关——Qwen3.5-9B 就够了。把 Opus 用在 Skill 微调上是浪费。
规则:小模型迭代 Skill 和 Tool 定义;大模型只用于求解具体电路任务;验证集仅 3 个电路用于门控决策。

7 用"增大上下文窗口"解决记忆问题

表现:检索质量下降 → 推测上下文不够 → 加大窗口。
为何致命:记忆退化有四种不同机制(写入失误、检索退化、利用失效、状态膨胀),加大上下文治征不治因。
规则:先诊断退化发生在记忆管道的哪个阶段,再施加定向修复(检索预算控制器、结构化状态覆盖、谨慎压缩策略)。
APPENDIX

17 篇论文索引

#论文机构核心贡献关键数字
1 Agent Harness Engineering: A Survey CMU/Yale/JHU/Amazon 等 ETCLOVG 七层框架;170+开源项目映射;Harness 是可靠性的约束瓶颈 Harness-only 改动 → 10× coding 提升
2 Code as Agent Harness UIUC/Meta/Stanford 代码作为 Agent 运行时操作基板;三层分类法覆盖100+论文 102页综述,7领域覆盖
3 AutoHarness Google DeepMind LLM 自动生成约束代码;小模型+Harness 打败大模型 14.5次迭代,100%合法动作
4 The Last Harness You'll Ever Build 双层元演化:内层优化单任务Harness,外层跨任务优化演化蓝图 理论框架
5 Meta-Harness Stanford/MIT/KRAFTON 文件系统级别全轨迹保留+搜索;环境自举发现 TB2: 76.4%;R²: 0.99 vs 0.42(标量)
6 Agentic Harness Engineering (AHE) 复旦/北大等 可证伪合约驱动 Harness 演化;三类可观测性 TB2: 69.7%→77.0%(+7.3pp)
7 Self-Harness 上海 AI Lab Agent 从最小 Harness 出发,依自身轨迹改进 MiniMax M2.5: +21.4pp
8 RHO: Retrospective Harness Optimization MSRA/港城大 完全自监督,无需标签;DPP+自验证+自偏好 SWE-Bench Pro: 59%→78%(+19pp)
9 HarnessFix 中科院软件所等 Trace-grounded诊断修复;HTIR中间表示;7层覆盖 4基准相对提升15.2%-50.0%
10 Harness Updating ≠ Harness Benefit 更新能力与受益能力分离;9B模型更新能力持平Opus Agent能力方差36pp,Evolver仅5.1pp
11 M-star 港城大/微软 记忆=可演化Python程序;schema+逻辑+指令联合进化 8项指标7项最优
12 SkillOpt 微软/上海交大/同济/复旦 文本学习率+验证门控+拒绝缓冲+epoch元更新 52/52全最优;平均+23.5分
13 Life-Harness 北大 四层运行时接口适配;从小模型轨迹演化,跨模型迁移 126组合116改善;平均+88.5%
14 MOSS 中科大/港科大/浸会 源码级Harness自演化;编排器-执行器安全分离 单轮+141%相对提升
15 Scaling Laws for Agent Harnesses (EFC) 哈工大 有效反馈计算量;四项因子乘积度量;成功率的power-law模型 R²=0.99;改善质量→成功率0.27→0.90
16 Agent Lifespan Engineering UT Austin AgingBench;四种记忆退化机制;行为vs事实发散 14模型×7场景×8-200轮
17 Auditing Agent Harness Safety UCSB 轨迹级安全审计;210任务基准;多智能体安全面扩大 >50%违规发生在中程;最佳总分仅0.32