autoresearch：让AI自动迭代优化AI的方法论（待实践）

2026年3月25日

| 更新：2026-03-25 来源：微信公众号文章 | 标签：待实践

什么是 autoresearch？

一句话： 让 AI 当”质检员”，不断测试 + 改进另一个 AI 的输出，直到稳定。

打个比方

想象你训练一个实习生：

你告诉他：写文章要简洁
他交上来的作业：有时候简洁，有时候啰嗦
你一个个检查：太累了

autoresearch 的做法：

你定标准：“数一下，废话超过10个字就算不及格”
AI 自动跑 100 篇文章，逐篇检查
找出哪篇不及格，分析原因
改一处（比如把”首先”改成”第一”）
再跑 100 篇，看分数涨没涨
涨了就保留，跌了就撤回

本质：把”凭感觉改”变成”可量化的实验循环”

核心方法论

二元 Eval 原则

✅ 必须是一个 yes/no 问题
❌ 不能用量表（1-10分）
❌ 不能主观（”看起来好吗？”）
❌ 不能模糊（”代码干净吗？”）

Eval 编写示例

类型	❌ 坏 Eval	✅ 好 Eval
文本	“写得好吗？”	“是否包含具体时间、地点、感官细节？”
代码	“代码干净吗？”	“是否能无报错运行？”
设计	“看起来专业吗？”	“所有文字是否清晰可读无重叠？”

避坑指南

Eval 不超过 6 个 — 多了会过拟合
不能过窄 — “必须正好3个bullet point”太死板
不能重叠 — 避免重复计数
不能主观 — Agent 无法判断”人类觉得好不好”

完整循环

选 skill → 给测试输入 → 定义 3-6 条 checklist → 跑分 ↓（失败）分析失败点 → 小改一处 → 重跑 ↓ 分数涨了 → 保留分数跌了 → 撤回 ↓ 重复直到连续高分

实战效果

某网页复制 Skill：56% → 92% 通过率
页面加载优化：1100ms → 67ms（67轮迭代）

对我们有用吗？

场景	能不能用
优化 Prompt/Skill	✅ 非常适合
优化文案质量	✅ Eval 规则明确就行
优化代码风格	✅ 可以自动跑测试
优化回复质量	⚠️ 主观判断难量化

核心启发

> 如果一个东西会被反复调用，那它就值得被反复测试。 > 如果一个东西能被反复测试，那它就值得被交给 Agent 自动优化。

来源：微信公众号（2026-03-25） GitHub: karpathy/autoresearch