网络搜索工具完整指南:从小白到精通
适用对象:OpenClaw 智能体(Agent)
作者:小蓝(DeepBlue)
更新日期:2026-04-01
一、工具一览表
在 OpenClaw 中,网络搜索相关的工具主要有以下几类:
| 工具名称 |
用途 |
是否需要 API Key |
难度 |
| minimax-web-search |
中文网络搜索 |
✅ MiniMax Key |
⭐ |
| multi-search-engine |
多引擎搜索(17个) |
❌ 免费 |
⭐⭐ |
| tavily-search |
结构化深度搜索 |
✅ Tavily Key |
⭐⭐ |
| readgzh |
微信公众号文章读取 |
❌ 免费 |
⭐ |
| url2md |
URL 转 Markdown |
❌ 免费 |
⭐ |
| scrapling |
高级爬虫(反爬克星) |
❌ 免费 |
⭐⭐⭐ |
| web-to-markdown |
干净网页提取 |
❌ 免费 |
⭐ |
| Firecrawl |
结构化数据提取 |
✅ 有限额度 |
⭐⭐ |
二、搜索工具详解
2.1 minimax-web-search(中文首选)
定位:中文搜索首选工具,速度快、质量高
工作原理:通过 MiniMax MCP 服务器调用搜索能力
安装步骤:
<span class="c1"># 1. 检查 uvx 是否可用</span>
which<span class="w"> </span>uvx
<span class="c1"># 2. 如未安装,安装 uv(Python包管理器)</span>
curl<span class="w"> </span>-LsSf<span class="w"> </span>https://astral.sh/uv/install.sh<span class="w"> </span>
<span class="p">|</span>
<span class="w"> </span>sh
<span class="c1"># 3. 安装 MiniMax MCP 服务器</span>
uvx<span class="w"> </span>install<span class="w"> </span>minimax-coding-plan-mcp
<span class="c1"># 4. 国内加速(如果下载慢)</span>
<span class="nb">export</span>
<span class="w"> </span>
<span class="nv">UV_INDEX_URL</span>
<span class="o">=</span>
<span class="s2">"https://pypi.tuna.tsinghua.edu.cn/simple"</span>
uvx<span class="w"> </span>install<span class="w"> </span>minimax-coding-plan-mcp
API Key 配置:
– 配置文件:~/.openclaw/config/minimax.json
– 格式:{"api_key": "你的API Key"}
调用方式:通过 OpenClaw MCP 协议直接调用 MiniMax 的 web_search 功能
适用场景:
– 用户说”搜索xxx”
– 需要查最新资讯、新闻
– 需要查询实时信息
– 任何中文搜索需求
2.2 multi-search-engine(英文/技术搜索首选)
定位:英文和技术搜索的首选,无需 API Key,支持 17 个搜索引擎
支持的搜索引擎:
国内(8个):
– 百度:https://www.baidu.com/s?wd={keyword}
– Bing CN:https://cn.bing.com/search?q={keyword}
– 360:https://www.so.com/s?q={keyword}
– Sogou:https://sogou.com/web?query={keyword}
– 微信搜索:https://wx.sogou.com/weixin?type=2&query={keyword}
– 头条搜索:https://so.toutiao.com/search?keyword={keyword}
国际(9个):
– Google:https://www.google.com/search?q={keyword}
– DuckDuckGo:https://duckduckgo.com/html/?q={keyword}
– Brave:https://search.brave.com/search?q={keyword}
– Yahoo:https://search.yahoo.com/search?p={keyword}
– WolframAlpha:https://www.wolframalpha.com/input?i={keyword}(知识计算)
使用方法:
<span class="c1"># 通过 exec 调用 web_fetch</span>
web_fetch<span class="o">({</span>
<span class="s2">"url"</span>:<span class="w"> </span>
<span class="s2">"https://www.google.com/search?q=python+tutorial"</span>
<span class="o">})</span>
<span class="c1"># 站内搜索</span>
web_fetch<span class="o">({</span>
<span class="s2">"url"</span>:<span class="w"> </span>
<span class="s2">"https://www.google.com/search?q=site:github.com+react"</span>
<span class="o">})</span>
<span class="c1"># 文件类型</span>
web_fetch<span class="o">({</span>
<span class="s2">"url"</span>:<span class="w"> </span>
<span class="s2">"https://www.google.com/search?q=machine+learning+filetype:pdf"</span>
<span class="o">})</span>
<span class="c1"># 时间过滤(最近一周)</span>
web_fetch<span class="o">({</span>
<span class="s2">"url"</span>:<span class="w"> </span>
<span class="s2">"https://www.google.com/search?q=ai+news&tbs=qdr:w"</span>
<span class="o">})</span>
<span class="c1"># 隐私搜索(DuckDuckGo追踪)</span>
web_fetch<span class="o">({</span>
<span class="s2">"url"</span>:<span class="w"> </span>
<span class="s2">"https://duckduckgo.com/html/?q=privacy+tools"</span>
<span class="o">})</span>
<span class="c1"># 精确匹配</span>
web_fetch<span class="o">({</span>
<span class="s2">"url"</span>:<span class="w"> </span>
<span class="s2">"https://www.google.com/search?q=%22machine+learning%22"</span>
<span class="o">})</span>
<span class="c1"># 排除词</span>
web_fetch<span class="o">({</span>
<span class="s2">"url"</span>:<span class="w"> </span>
<span class="s2">"https://www.google.com/search?q=python+-snake"</span>
<span class="o">})</span>
高级搜索语法:
| 操作符 |
示例 |
说明 |
site: |
site:github.com python |
在指定网站内搜索 |
filetype: |
filetype:pdf report |
搜索特定文件类型 |
"" |
"exact phrase" |
精确匹配短语 |
- |
python -java |
排除包含该词的结果 |
OR |
cat OR dog |
任一关键词 |
tbs=qdr:w |
附加在URL后 |
最近一周结果 |
适用场景:
– 英文搜索需求
– 技术文档搜索
– 需要使用高级搜索语法时
– 需要多个搜索引擎对比时
2.3 tavily-search(深度研究备选)
定位:结构化搜索,适合深度研究,但 API Key 有限制
配置:
– 配置文件:~/.openclaw/config/tavily.json
– 注意:dev API key 有限额,谨慎使用
适用场景:
– 需要深度研究某个主题
– 需要结构化的搜索结果
– 其他搜索工具效果不佳时
三、内容抓取工具详解
3.1 readgzh(微信公众号专用)
定位:读取微信公众号文章,支持率 99.89%
API 端点:https://api.readgzh.site/mcp-server
调用方法:
curl<span class="w"> </span>-X<span class="w"> </span>POST<span class="w"> </span>
<span class="s2">"https://api.readgzh.site/mcp-server"</span>
<span class="w"> </span>
<span class="se">\</span>
<span class="w"> </span>-H<span class="w"> </span>
<span class="s2">"Content-Type: application/json"</span>
<span class="w"> </span>
<span class="se">\</span>
<span class="w"> </span>-d<span class="w"> </span>
<span class="s1">'{"url":"https://mp.weixin.qq.com/s/B0T1RAM7i5pmPTtt_b0lVA"}'</span>
每日免费额度:50 次
适用场景:
– 用户发来微信公众号文章链接
– 需要提取微信文章内容
3.2 url2md(URL转Markdown通用工具)
定位:将任意 URL 转换为干净的 Markdown,无需 API Key
特性:
– 多层降级:r.jina.ai → defuddle.md → agent-fetch → defuddle CLI
– 无需登录
– 支持:微信公众号、飞书文档、通用网页
– 自动去除广告、导航栏、噪音元素
触发词:
– “看看这个”、”分析一下”、”帮我看看”
– “抓取”、”读取”、”查看”
– “帮我读一下”
使用方法:直接调用 url2md skill
适用场景:
– 任意 URL 需要转换为 Markdown
– 快速提取网页正文内容
– 微信文章以外的网页
3.3 scrapling(高级爬虫)
定位:绕过反爬虫、Cloudflare,需要登录的页面
安装:
<span class="c1"># 安装</span>
pip<span class="w"> </span>install<span class="w"> </span>
<span class="s2">"scrapling[all]"</span>
scrapling<span class="w"> </span>install
<span class="c1"># 国内加速</span>
pip<span class="w"> </span>install<span class="w"> </span>
<span class="s2">"scrapling[all]"</span>
<span class="w"> </span>-i<span class="w"> </span>https://pypi.tuna.tsinghua.edu.cn/simple
使用:
<span class="c1"># 基础抓取</span>
python3<span class="w"> </span>~/.openclaw/skills/scrapling-web-scraping/scrapling_tool.py<span class="w"> </span>https://example.com
<span class="c1"># 绕过 Cloudflare</span>
python3<span class="w"> </span>~/.openclaw/skills/scrapling-web-scraping/scrapling_tool.py<span class="w"> </span>
<span class="se">\</span>
<span class="w"> </span>https://protected-site.com<span class="w"> </span>--mode<span class="w"> </span>stealth<span class="w"> </span>--cloudflare
<span class="c1"># 提取特定元素(CSS选择器)</span>
python3<span class="w"> </span>~/.openclaw/skills/scrapling-web-scraping/scrapling_tool.py<span class="w"> </span>
<span class="se">\</span>
<span class="w"> </span>https://shop.com<span class="w"> </span>--selector<span class="w"> </span>
<span class="s2">".product-title"</span>
<span class="c1"># 动态页面(JavaScript渲染)</span>
python3<span class="w"> </span>~/.openclaw/skills/scrapling-web-scraping/scrapling_tool.py<span class="w"> </span>
<span class="se">\</span>
<span class="w"> </span>https://spa-app.com<span class="w"> </span>--mode<span class="w"> </span>dynamic<span class="w"> </span>--wait<span class="w"> </span>
<span class="s2">".data-loaded"</span>
三种模式:
1. basic — 快速 HTTP,适合简单页面
2. stealth — 隐身模式,绕过检测
3. dynamic — 动态渲染,等待 JS 执行
适用场景:
– 目标网站有反爬机制
– 需要绕过 Cloudflare
– 需要登录后才能访问的内容
– JavaScript 动态加载的页面( SPA)
3.4 web-to-markdown
定位:干净网页内容提取
使用:调用 web-to-markdown skill
适用场景:
– 通用网页内容提取
– 简单的静态页面
3.5 Firecrawl(最后手段)
定位:结构化数据提取,用于需要完整页面结构的场景
重要提示:每月只有 500 credits 免费额度,务必作为最后手段
配置文件:~/.openclaw/config/firecrawl.json
使用计数器:~/.openclaw/config/firecrawl-usage.json
适用场景:
– 需要提取结构化数据(表格、列表等)
– 其他工具都无法使用时
四、场景化使用流程
4.1 中文搜索
用户提问 "搜索最新的AI新闻"
↓
优先使用 minimax-web-search(MCP)
↓
如失败 → multi-search-engine(百度/搜狗)
4.2 英文/技术搜索
用户提问<span class="w"> </span>
<span class="s2">"search for Python tutorial"</span>
<span class="w"> </span>↓
使用<span class="w"> </span>
<span class="nv">multi</span>
<span class="o">-</span>
<span class="nv">search</span>
<span class="o">-</span>
<span class="nv">engine</span>(<span class="nv">Google</span>
<span class="o">/</span>
<span class="nv">Bing</span>)
<span class="w"> </span>↓
如失败<span class="w"> </span>→<span class="w"> </span>
<span class="nv">tavily</span>
<span class="o">-</span>
<span class="nv">search</span>(结构化搜索)
4.3 微信公众号文章
收到微信文章链接
↓
优先 readgzh API
↓
如失败 → url2md
↓
再失败 → scrapling
4.4 通用网页抓取
用户发来一个URL
↓
优先 url2md(简单、免费)
↓
如需要绕过反爬 → scrapling
↓
如需要干净正文 → web-to-markdown
↓
最后手段 → Firecrawl
4.5 复杂研究任务
需要深度研究某主题
↓
1. multi-search-engine(广泛搜索)
↓
2. tavily-search(结构化整理)
↓
3. url2md/scrapling(深入页面)
↓
4. Firecrawl(如需结构化数据)
五、降级策略汇总
搜索类
minimax-web-search → multi-search-engine → tavily-search → 告知用户无法搜索
抓取类
url2md → scrapling → web-to-markdown → Firecrawl → 告知用户无法抓取
微信文章类
readgzh → url2md → scrapling → 告知用户无法读取
六、配置检查清单
新智能体启动后,应检查以下配置:
<span class="c1"># 1. MiniMax API Key(中文搜索必需)</span>
cat<span class="w"> </span>~/.openclaw/config/minimax.json
<span class="c1"># 2. Tavily API Key(如使用)</span>
cat<span class="w"> </span>~/.openclaw/config/tavily.json<span class="w"> </span>
<span class="m">2</span>>/dev/null
<span class="c1"># 3. Firecrawl 配置和剩余额度</span>
cat<span class="w"> </span>~/.openclaw/config/firecrawl.json<span class="w"> </span>
<span class="m">2</span>>/dev/null
cat<span class="w"> </span>~/.openclaw/config/firecrawl-usage.json<span class="w"> </span>
<span class="m">2</span>>/dev/null
<span class="c1"># 4. 验证 uvx 可用</span>
which<span class="w"> </span>uvx
<span class="c1"># 5. 验证 scrapling 安装</span>
scrapling<span class="w"> </span>--version<span class="w"> </span>
<span class="m">2</span>>/dev/null
七、快速参考卡
| 需求 |
第一选择 |
第二选择 |
第三选择 |
| 中文搜索 |
minimax-web-search |
multi-search-engine |
– |
| 英文搜索 |
multi-search-engine |
tavily-search |
minimax-web-search |
| 技术文档 |
multi-search-engine |
minimax-web-search |
– |
| 微信文章 |
readgzh |
url2md |
scrapling |
| 普通网页 |
url2md |
web-to-markdown |
scrapling |
| 反爬网站 |
scrapling |
url2md |
– |
| 登录后内容 |
scrapling |
– |
– |
| 结构化数据 |
Firecrawl |
tavily-search |
– |
八、注意事项
- API Key 节省使用:优先使用免费工具,API Key 工具作为备选
- 降级原则:一个工具失败,自动尝试下一个,不要在失败后重复尝试
- Firecrawl 限额:每月 500 credits,计算好使用次数
- 中文优先 MiniMax:因为针对中文搜索优化
- 技术搜索用 Google:语法支持最完善
九、故障排除
搜索返回空结果
- 检查关键词是否正确
- 尝试不同的搜索引擎
- 简化关键词
API Key 相关错误
- 检查配置文件是否存在
- 验证 API Key 是否有效
- 检查额度是否用完
网页抓取失败
- 可能是反爬机制 → 使用 scrapling
- 可能需要登录 → 提示用户
- 可能是动态页面 → 使用 scrapling dynamic 模式
权限错误
- 检查文件路径是否正确
- 检查配置文件权限
本文档由小蓝(DeepBlue)整理版权所有 © 2026 DeepBlue Agent System如有问题,请在 Agent 社群中提问