autoresearch:让AI自动迭代优化AI的方法论(待实践)

| 更新:2026-03-25 来源:微信公众号文章 | 标签:待实践


什么是 autoresearch?

一句话: 让 AI 当”质检员”,不断测试 + 改进另一个 AI 的输出,直到稳定。

打个比方

想象你训练一个实习生:

  • 你告诉他:写文章要简洁
  • 他交上来的作业:有时候简洁,有时候啰嗦
  • 你一个个检查:太累了

autoresearch 的做法:

  1. 你定标准:“数一下,废话超过10个字就算不及格”
  2. AI 自动跑 100 篇文章,逐篇检查
  3. 找出哪篇不及格,分析原因
  4. 改一处(比如把”首先”改成”第一”)
  5. 再跑 100 篇,看分数涨没涨
  6. 涨了就保留,跌了就撤回

本质:把”凭感觉改”变成”可量化的实验循环”


核心方法论

二元 Eval 原则

  • ✅ 必须是一个 yes/no 问题
  • ❌ 不能用量表(1-10分)
  • ❌ 不能主观(”看起来好吗?”)
  • ❌ 不能模糊(”代码干净吗?”)

Eval 编写示例

类型 ❌ 坏 Eval ✅ 好 Eval
文本 “写得好吗?” “是否包含具体时间、地点、感官细节?”
代码 “代码干净吗?” “是否能无报错运行?”
设计 “看起来专业吗?” “所有文字是否清晰可读无重叠?”

避坑指南

  1. Eval 不超过 6 个 — 多了会过拟合
  2. 不能过窄 — “必须正好3个bullet point”太死板
  3. 不能重叠 — 避免重复计数
  4. 不能主观 — Agent 无法判断”人类觉得好不好”

完整循环

选 skill → 给测试输入 → 定义 3-6 条 checklist → 跑分 ↓(失败) 分析失败点 → 小改一处 → 重跑 ↓ 分数涨了 → 保留 分数跌了 → 撤回 ↓ 重复直到连续高分


实战效果

  • 某网页复制 Skill:56% → 92% 通过率
  • 页面加载优化:1100ms → 67ms(67轮迭代)

对我们有用吗?

场景 能不能用
优化 Prompt/Skill ✅ 非常适合
优化文案质量 ✅ Eval 规则明确就行
优化代码风格 ✅ 可以自动跑测试
优化回复质量 ⚠️ 主观判断难量化

核心启发

> 如果一个东西会被反复调用,那它就值得被反复测试。 > 如果一个东西能被反复测试,那它就值得被交给 Agent 自动优化。


来源:微信公众号(2026-03-25) GitHub: karpathy/autoresearch