快速对比
| 功能 | /agent | /extract | /scrape (JSON 模式) |
|---|---|---|---|
| 状态 | 已启用 | 请改用 /agent | 已启用 |
| 是否需要 URL | 否(可选) | 是(支持通配符) | 是(单一 URL) |
| 范围 | 全网范围发现 | 多页面/多域名 | 单页面 |
| URL 发现 | 自动进行全网搜索 | 从给定 URL 进行爬取 | 无 |
| 处理方式 | 异步 | 异步 | 同步 |
| 是否需要 Schema | 否(prompt 或 schema) | 否(prompt 或 schema) | 否(prompt 或 schema) |
| 计费 | 动态计费(每天 5 次免费运行) | 基于 token(1 点数 = 15 个 token) | 1 点数/页 |
| 最适合 | 调研、发现、复杂信息收集 | 多页面抽取(在已知 URL 的情况下) | 已知单页面抽取 |
1. /agent 端点
/agent 端点是 Firecrawl 最先进的功能,是 /extract 的后继者。它使用 AI 代理自主在全网进行搜索、导航和数据采集。
关键特性
- URL 可选:只需通过
prompt描述你的需求;URL 完全可选 - 自主导航:代理会自动搜索并深入浏览站点来找到你的数据
- 深度网页搜索:自主在多个域名和页面间发现所需信息
- 并行处理:同时处理多个数据源以提升返回速度
- 可用模型:
spark-1-mini(默认,成本低 60%)和spark-1-pro(精度更高)
示例
最佳用例:自主研究与探索
/agent:你不知道从哪些网站可以获取这些信息。agent 会自主在网上搜索,访问相关来源(Crunchbase、新闻网站、公司页面),并为你整理结构化数据。
更多详情请参见 Agent 文档。
2. /extract 端点
请改用
/agent:我们建议迁移到 /agent——它更快、更可靠、无需提供 URL,并且能覆盖所有 /extract 的用例并支持更多场景。/extract 端点使用基于 LLM 的提取能力,从指定的 URL 或整个域名中收集结构化数据。
关键特性
- 通常需要提供 URL:至少提供一个 URL(支持通配符,如
example.com/*) - 域级爬取:可以爬取并解析在某个域名下发现的所有 URL
- 网页搜索增强:可选参数
enableWebSearch,用于跟踪指定域名之外的链接 - 可选 Schema:同时支持严格的 JSON schema 或自然语言提示词
- 异步处理:返回用于状态查询的任务 ID
URL 限制
/extract 的核心问题在于,你通常需要提前知道 URL:
- 发现缺口:对于类似“找出 YC W24 公司”这样的任务,你并不知道哪些 URL 包含所需数据。你需要在调用
/extract之前先单独执行一次搜索。 - 笨拙的网页搜索:虽然有
enableWebSearch,但它只能从你提供的 URL 开始——对于以发现为主的任务来说,这个流程非常别扭。 /agent被创建的原因:/extract很擅长从已知位置抽取数据,但在“先发现数据在哪里”这方面就没那么有效。
示例
最佳使用场景:有针对性的多页面提取
docs.competitor.com/* 中提取出他们所有的 API 端点。
为什么这里使用 /extract 很合适:你已经知道确切的域名。但即便如此,如今在提供 URL 的前提下,/agent 通常会得到更好的效果。
更多详情,请参阅 Extract 文档。
3. 使用 JSON 模式的 /scrape 端点
/scrape 端点是可控性最高的方案——它使用 LLM 将页面内容解析为你指定的 schema,从单个已知 URL 中提取结构化数据。
关键特性
- 仅支持单个 URL:用于一次仅从一个特定页面提取数据
- 必须提供精确 URL:必须明确包含数据的精确 URL
- Schema 可选:可以使用 JSON schema,或仅提供 prompt(由 LLM 决定结构)
- 同步:立即返回数据(无需轮询任务状态)
- 额外 formats:可以在一次请求中同时获取 JSON 抽取结果以及 markdown、HTML、截图等
示例
最佳适用场景:单页精确抽取
/scrape 搭配 JSON 模式:你确切知道哪个页面包含所需数据,需要对单页进行精确抽取,并且希望同步返回结果,而不想处理任务管理的开销。
更多详情请参阅 JSON 模式文档。
决策指南
- 否 → 使用
/agent(自主网页发现) - 是
- 单个页面? → 使用
/scrape配合 JSON 模式 - 多个页面? → 使用
/agent配合 URL (或使用/scrape配合批量处理)
- 单个页面? → 使用
按场景推荐
| 场景 | 推荐使用的 Endpoint |
|---|---|
| 「查找所有 AI 初创公司及其融资情况」 | /agent |
| 「从这个特定的产品页面中提取数据」 | /scrape(JSON 模式) |
| 「获取 competitor.com 上的所有博文」 | /agent 配合 URL |
| 「监控多个已知 URL 的价格变化」 | /scrape 配合批量处理 |
| 「调研某一特定行业的公司」 | /agent |
| 「从 50 个已知公司页面中提取联系信息」 | /scrape 配合批量处理 |
价格
| Endpoint | 费用 | 备注 |
|---|---|---|
/scrape (JSON 模式) | 1 credit/页 | 固定且可预测 |
/extract | 按 Token 计费(1 credit = 15 tokens) | 随内容变化 |
/agent | 动态计费 | 每天可免费运行 5 次;视复杂度而定 |
示例:“查找 Firecrawl 的创始人”
| Endpoint | 工作方式 | 消耗积分 |
|---|---|---|
/scrape | 你先手动找到 URL,然后抓取 1 个页面 | 约 1 个积分 |
/extract | 你提供一个或多个 URL,即可抽取结构化数据 | 可变(按 token 计费) |
/agent | 只需发送提示词(prompt)——agent 会自动发现并抽取 | 约 15 个积分 |
/scrape 成本最低,但需要你事先知道 URL。/agent 成本更高,但会自动完成网址发现。
有关详细定价,请参见 Firecrawl Pricing。
迁移:/extract → /agent
/extract 接口,迁移过程非常简单:
迁移前(使用 /extract):
/agent 时,你甚至可以省略 URL,只需描述你的需求。
关键要点
-
已经知道精确 URL? 使用
/scrape搭配 JSON 模式——这是最便宜(1 积分/页面)、最快(同步)、且最可预测的选项。 -
需要自动化调研? 使用
/agent——它会自动完成信息发现,每天有 5 次免费运行,之后根据复杂度动态计费。 -
将
/extract迁移 到用于新项目的/agent——/agent是功能更强的继任方案。 -
成本与便利性的权衡:当你已经知道 URL 时,
/scrape性价比最高;/agent成本更高,但免去了手动发现 URL 的工作。

