Harness 设计综述 · 17篇论文

EXECUTIVE SUMMARY

核心结论

核心论文

设计原则

反模式

研究主题

≥50%

中程违规靠最终输出发现不了

PART 1

研究格局（按主题组织）

17 篇论文覆盖 5 个紧密关联的主题，从 Harness 的根本定义到长期稳定性。

主题 A：Harness 的根本定义与哲学转向

Code as Agent Harness（UIUC/Meta/Stanford，arXiv:2605.18747，102页综述覆盖100+论文）：代码不再是 LLM 的输出目标，而是智能体推理、行动、环境建模和验证的操作基板。三层架构——Harness Interface（接口层）、Harness Mechanisms（Plan-Execute-Verify + 记忆 + 工具 + 反馈）、Multi-Agent Scaling（共享代码工件协调多智能体）。核心命题：让每个智能体动作都产生可验证的代码工件，将 Agent 从黑箱文本生成器转变为一个可审计、可重放的状态机。

Agent Harness Engineering: A Survey（CMU/Yale/JHU/Amazon 等，TMLR 在审，覆盖170+开源项目）：提出 ETCLOVG 七层框架——Execution（执行环境）、Tool（工具接口）、Context（上下文与记忆管理）、Lifecycle（生命周期编排）、Observability（可观测性）、Verification（验证与评估）、Governance（治理与安全）。前三层是结构核心，后三层是控制平面。关键论断：每个 Harness 组件编码了模型"做不到什么"的假设，而这些假设会随模型升级而过时——Harness 需要自简化机制。

    工程阶段演进：Prompt Engineering（2022-2024，优化单一文本输入）→ Context Engineering（2025，管理多信息流注入上下文窗口）→ Harness Engineering（2026，基础设施层维护状态、中介工具、注入反馈、执行约束、验证进展）。每个阶段内含前一阶段，边际工程努力的重心在不断上移。
  

主题 B：自动化 Harness 生成与演化

AutoHarness（DeepMind）

小模型通过环境错误反馈迭代自优化，自动生成约束检查代码。14.5次迭代消除所有非法动作。最终产物是纯Python，零推理时LLM依赖。Flash+Harness 打败了裸 Gemini-2.5-Pro。

Meta-Harness（Stanford/MIT）

将 Harness 当做可搜索的代码对象。优化器读取源码+全执行轨迹+历史分数，在文件系统中选择性检索（故意不压缩），发现环境自举等策略。TB2 达 76.4%，在海库4.5上排名第一。

AHE（复旦/北大）

每次 Harness 编辑附"可证伪合约"——改前声明预期改善的指标和幅度，跑完后验证。10轮演化后 TB2: 69.7%→77.0%。收益来自工具+中间件+长期记忆，不是 system prompt。

The Last Harness You'll Ever Build

双层元演化框架。内层 Worker+Evaluator+Evolution Agent 优化单任务 Harness；外层跨任务族优化演化蓝图。目标：对新领域 Harness 适配实现零人工干预。

Self-Harness（上海AI Lab）

LLM Agent 从最小初始 Harness 出发，依据自身轨迹挖掘失败模式→提案修改→回归验证。MiniMax M2.5 从40.5%→61.9%（+21.4pp）。Harness 从设计之初就是机器可修改的。

主题 C：技能（Skill）作为外部化可训练状态

SkillOpt（微软/上海交大/同济/复旦）

将 Skill 文档视为可训练的外部状态。应用深度学习训练纪律：文本学习率（每步≤4编辑）、验证门控（严格提升才接受）、拒绝编辑缓冲（负梯度记忆）、epoch级慢更新。52/52评测组合全最优。仅需1-4次接受编辑即获显著增益。

RHO（MSRA/港城大）

完全自监督——不需要任何标签。DPP采样历史困难案例→自验证+自一致性信号诊断失败→成对自偏好选择最佳Harness更新。SWE-Bench Pro: 59%→78%（+19pp），单轮。

M-star（港城大/微软）

记忆是可演化的Python程序——schema+存储逻辑+工作流指令联合进化。不同任务域需要完全不同的存储架构：具身规划用SQLite动作缓存，对话用双ChromaDB+SQLite。

主题 D：Harness 诊断、审计与效率度量

HarnessFix（中科院软件所）

Trace-grounded 诊断修复。HTIR 中间表示将执行轨迹和 Harness 代码统一到可诊断图。步骤级根因归因→层诊断→缺陷合并→范围受控修复补丁。4基准相对提升15.2%-50.0%。Prompt-only修复在TB2上零收益。

EFC Scaling Laws（哈工大）

有效反馈计算（EFC）= 信息性×有效性×非冗余性×留存性。预测失败率的R²达0.99（原始token/tool call仅≤0.42）。固定预算下改善反馈质量，成功率从0.27→0.90。

HarnessAudit（UCSB）

210任务审计基准。>50%智能体中程违规仅靠最终输出检查无法发现。多智能体配置使违规率从单智能体的0.91骤降至0.64。最佳系统总分仅0.32——距离安全可靠还差很远。

主题 E：生命周期管理与长期稳定性

Agent Lifespan Engineering（UT Austin）

四种记忆退化机制：压缩损失、干扰排斥、修订累积误差、维护冲击。模型越大不一定越好——GPT-4o在累加器任务上甚至比小模型更差。自主Agent存在写入-读取断层：写了有用文件但不重读。

Life-Harness（北大）

四层运行时接口适配：环境契约层+过程技能层+动作实现层+轨迹调节层。Qwen3-4B轨迹演化出的Harness可迁移到17个其他模型，平均相对提升88.5%。部分失败可通过接口适配解决无需改模型。

MOSS（中科大/港科大）

首次让Harness演化进入源码级：路由、钩子排序、状态不变式、调度逻辑。编排器拥有安全门控（健康探测、回滚到last-known-good、用户同意），代码修改代理仅拥有局部编辑动作。单轮+141%相对提升。

Harness Updating ≠ Harness Benefit

Harness更新能力和受益能力是两种无关的能力。Qwen3.5-9B更新Skill的能力与Opus 4.6持平。弱模型瓶颈在"加载Skill"和"遵循Skill"，中等能力模型受益最大，强模型因能力饱和边际收益小。

PART 2

好 Harness 的 7 条设计原则

每条原则都有具体论文支撑，有数字，有反例。

1 每步产出可验证的代码工件（Code-First Auditability）

来源：Code as Agent Harness, HarnessAudit, HarnessFix

每个智能体动作必须返回机器可验证的工件，非自然语言声明。例如：仿真阶段输出固定 schema 的结构化 metrics + 原始输出文件；优化阶段输出可应用的参数 diff + LLM 推理链原文；设计阶段输出 netlist + 参数 JSON + 确定性生成脚本。

    可接受：{"dc_gain": 72.3, "ugbw_mhz": 154.2, "phase_margin_deg": 62.1, "convergence": true, "drc_violations": 0}

    不可接受："仿真通过了，性能看起来不错。"

2 Harness 必须是可版本化、可机器修改的独立文件

来源：Self-Harness, MOSS, SkillOpt

Skill 文件、Tool 定义、权限策略全部外置为 .md / .py / .yaml，每次修改产生 git diff，附带回归测试套件。Self-Harness 的核心教训：Harness 从设计第一天就要为机器修改而生——可程序化读取、diff、测试、回滚。

3 每次 Harness 编辑附可证伪合约（Falsifiable Contract）

来源：AHE (arXiv:2604.25850)

改之前必须记录四要素：(1)改了什么(精确diff)、(2)预期哪个指标改善、(3)改善多少、(4)跑完验证后预测-实际差异反馈回下轮。AHE 证明这消除了 trial-and-error 震荡——无合约时系统在相同（或相反）改动之间反复，无法收敛。

4 全执行轨迹保留在文件系统，不压缩为标量分数

来源：Meta-Harness, EFC

EFC 论文核心数字：标量分数压掉了 ≥58% 的预测力（R² 从 0.99 跌至 ≤0.42）。保留每轮迭代的全部原始数据（netlist 前后对比、仿真波形、DRC 报告、收敛日志、LLM 推理链），故意让目录大于优化器上下文窗口，迫使选择性检索。

5 编排器与代码执行器严格分离

来源：MOSS, Harness Updating ≠ Harness Benefit

编排器（Orchestrator）	代码执行器（Code-Modification Agent）
阶段排序、判定、循环退出、交换时机	仅拥有局部编辑动作
健康探测、回滚到 last-known-good、用户同意	可插拔的外部 CLI 进程
SkillOpt 调度器担当	OpenCode 的三个 Tool 担当

无论执行器怎么换模型，编排器的安全保证不变。

6 记忆是可演化的编程接口，不是固定数据存储

来源：M-star, Agent Lifespan Engineering

定义一组原语操作（设计参数历史SQL表、电路拓扑向量索引、收敛失败模式堆），暴露 write()/read() 契约，让搜索为每类电路任务自动发现最优存储架构。埋入三阶段健康探测：写入保真度→检索精度→利用率。

7 优化 η = 有效反馈 / 原始开销（EFC Efficiency）

来源：EFC Scaling Laws (arXiv:2605.29682)

对每轮仿真结果喂给 Optimizer 之前，检查四项 EFC 因子——信息性（与当前任务相关？）、有效性（来自仿真器输出非LLM推测？）、非冗余性（不重复已有发现？）、留存性（会被后续决策记住？）。任一因子为 0，该反馈事件贡献的有效计算接近 0。固定预算下改善反馈质量：成功率从 0.27→0.90。

PART 3

绝对不要做的事（7 个反模式）

1 用自然语言代替结构化工件

    表现：Forge 后输出"我调整了输入差分对尺寸改善增益"而不给具体新参数。

    为何致命：无法 diff、无法重放、无法验证。审计通道无法检测"声明"与"实际"之间的差异。

    规则：禁止任何 Tool 返回不含结构化数据的自然语言作为唯一输出。

2 将反馈信号压缩为单一标量分数

    表现：只回传"FOM = 0.73"给 Optimizer。

    为何致命：EFC 论文证明标量压下损失了 ≥58% 的预测力。Optimizer 无法从标量推断哪个设计决策导致了改善或退化。

    规则：全设计状态 + 全仿真输出 + 全DRC报告 + 全推理链保留到文件系统。

3 将 Harness 配置硬编码在 Prompt 内

    表现：在 System Prompt 里写"如果 DRC 违规 > 0 则采用保守裕度策略"。

    为何致命：无法被 SkillOpt 自动演化、无法 git 追踪、无法被审计通道检查。

    规则：所有策略、技能、约束必须外部化为可版本化文件，通过文件系统引用加载。

4 盲试式 Harness 调优，无可证伪合约

    表现："收敛问题减少了，可能是那个 prompt 改动起了作用，可能不是，继续改吧。"

    为何致命：AHE 证明无合约时系统在相同（或相反）改动之间反复震荡，无法收敛。

    规则：每次 Harness 修改记录四要素（改了什么、预期什么指标、预期多少、实际多少）。

5 依赖 Agent 自报作为正确性验证

    表现：最终输出检查通过了，认为整个流程安全合法。

    为何致命：HarnessAudit 证明 >50% 的违规发生在中程（中间步骤的错误工具调用、越权文件访问），永远不会出现在最终输出。

    规则：在每个工具调用点注入 Harness 级别审计，独立于 Agent 自报。

6 将进化模型和任务解决模型混用同一预算

    表现：每次 Skill 改进都跑完整 21 电路评估，还用最贵模型。

    为何致命：Skill 更新能力与模型规模无关——Qwen3.5-9B 就够了。把 Opus 用在 Skill 微调上是浪费。

    规则：小模型迭代 Skill 和 Tool 定义；大模型只用于求解具体电路任务；验证集仅 3 个电路用于门控决策。

7 用"增大上下文窗口"解决记忆问题

    表现：检索质量下降 → 推测上下文不够 → 加大窗口。

    为何致命：记忆退化有四种不同机制（写入失误、检索退化、利用失效、状态膨胀），加大上下文治征不治因。

    规则：先诊断退化发生在记忆管道的哪个阶段，再施加定向修复（检索预算控制器、结构化状态覆盖、谨慎压缩策略）。

APPENDIX

17 篇论文索引

#	论文	机构	核心贡献	关键数字
1	Agent Harness Engineering: A Survey	CMU/Yale/JHU/Amazon 等	ETCLOVG 七层框架；170+开源项目映射；Harness 是可靠性的约束瓶颈	Harness-only 改动 → 10× coding 提升
2	Code as Agent Harness	UIUC/Meta/Stanford	代码作为 Agent 运行时操作基板；三层分类法覆盖100+论文	102页综述，7领域覆盖
3	AutoHarness	Google DeepMind	LLM 自动生成约束代码；小模型+Harness 打败大模型	14.5次迭代，100%合法动作
4	The Last Harness You'll Ever Build	—	双层元演化：内层优化单任务Harness，外层跨任务优化演化蓝图	理论框架
5	Meta-Harness	Stanford/MIT/KRAFTON	文件系统级别全轨迹保留+搜索；环境自举发现	TB2: 76.4%；R²: 0.99 vs 0.42（标量）
6	Agentic Harness Engineering (AHE)	复旦/北大等	可证伪合约驱动 Harness 演化；三类可观测性	TB2: 69.7%→77.0%（+7.3pp）
7	Self-Harness	上海 AI Lab	Agent 从最小 Harness 出发，依自身轨迹改进	MiniMax M2.5: +21.4pp
8	RHO: Retrospective Harness Optimization	MSRA/港城大	完全自监督，无需标签；DPP+自验证+自偏好	SWE-Bench Pro: 59%→78%（+19pp）
9	HarnessFix	中科院软件所等	Trace-grounded诊断修复；HTIR中间表示；7层覆盖	4基准相对提升15.2%-50.0%
10	Harness Updating ≠ Harness Benefit	—	更新能力与受益能力分离；9B模型更新能力持平Opus	Agent能力方差36pp，Evolver仅5.1pp
11	M-star	港城大/微软	记忆=可演化Python程序；schema+逻辑+指令联合进化	8项指标7项最优
12	SkillOpt	微软/上海交大/同济/复旦	文本学习率+验证门控+拒绝缓冲+epoch元更新	52/52全最优；平均+23.5分
13	Life-Harness	北大	四层运行时接口适配；从小模型轨迹演化，跨模型迁移	126组合116改善；平均+88.5%
14	MOSS	中科大/港科大/浸会	源码级Harness自演化；编排器-执行器安全分离	单轮+141%相对提升
15	Scaling Laws for Agent Harnesses (EFC)	哈工大	有效反馈计算量；四项因子乘积度量；成功率的power-law模型	R²=0.99；改善质量→成功率0.27→0.90
16	Agent Lifespan Engineering	UT Austin	AgingBench；四种记忆退化机制；行为vs事实发散	14模型×7场景×8-200轮
17	Auditing Agent Harness Safety	UCSB	轨迹级安全审计；210任务基准；多智能体安全面扩大	>50%违规发生在中程；最佳总分仅0.32