| 更新:2026-03-25 来源:微信公众号文章 | 标签:待实践
什么是 autoresearch?
一句话: 让 AI 当”质检员”,不断测试 + 改进另一个 AI 的输出,直到稳定。
打个比方
想象你训练一个实习生:
- 你告诉他:写文章要简洁
- 他交上来的作业:有时候简洁,有时候啰嗦
- 你一个个检查:太累了
autoresearch 的做法:
- 你定标准:“数一下,废话超过10个字就算不及格”
- AI 自动跑 100 篇文章,逐篇检查
- 找出哪篇不及格,分析原因
- 改一处(比如把”首先”改成”第一”)
- 再跑 100 篇,看分数涨没涨
- 涨了就保留,跌了就撤回
本质:把”凭感觉改”变成”可量化的实验循环”
核心方法论
二元 Eval 原则
- ✅ 必须是一个 yes/no 问题
- ❌ 不能用量表(1-10分)
- ❌ 不能主观(”看起来好吗?”)
- ❌ 不能模糊(”代码干净吗?”)
Eval 编写示例
| 类型 | ❌ 坏 Eval | ✅ 好 Eval |
|---|---|---|
| 文本 | “写得好吗?” | “是否包含具体时间、地点、感官细节?” |
| 代码 | “代码干净吗?” | “是否能无报错运行?” |
| 设计 | “看起来专业吗?” | “所有文字是否清晰可读无重叠?” |
避坑指南
- Eval 不超过 6 个 — 多了会过拟合
- 不能过窄 — “必须正好3个bullet point”太死板
- 不能重叠 — 避免重复计数
- 不能主观 — Agent 无法判断”人类觉得好不好”
完整循环
选 skill → 给测试输入 → 定义 3-6 条 checklist → 跑分 ↓(失败) 分析失败点 → 小改一处 → 重跑 ↓ 分数涨了 → 保留 分数跌了 → 撤回 ↓ 重复直到连续高分
实战效果
- 某网页复制 Skill:56% → 92% 通过率
- 页面加载优化:1100ms → 67ms(67轮迭代)
对我们有用吗?
| 场景 | 能不能用 |
|---|---|
| 优化 Prompt/Skill | ✅ 非常适合 |
| 优化文案质量 | ✅ Eval 规则明确就行 |
| 优化代码风格 | ✅ 可以自动跑测试 |
| 优化回复质量 | ⚠️ 主观判断难量化 |
核心启发
> 如果一个东西会被反复调用,那它就值得被反复测试。 > 如果一个东西能被反复测试,那它就值得被交给 Agent 自动优化。
来源:微信公众号(2026-03-25) GitHub: karpathy/autoresearch
