概览
功能
- 高效完成任意网站的网页抓取、爬取与内容发现
- 高级搜索与智能内容提取
- 深度研究与大规模批量抓取
- 灵活部署(云端或自托管)
- 针对现代 Web 环境优化,支持 HTTP 流式传输
前置条件
- 从 firecrawl.dev 获取 Firecrawl 的 API 密钥
- 安装 Google SDK
设置
可用工具
| 工具 | 名称 | 描述 |
|---|---|---|
| Scrape 工具 | firecrawl_scrape | 使用高级选项抓取单个 URL 的内容 |
| 批量 Scrape 工具 | firecrawl_batch_scrape | 通过内置限速与并行处理高效抓取多个 URL |
| 批处理状态检查 | firecrawl_check_batch_status | 查看批处理操作状态 |
| Map 工具 | firecrawl_map | 映射网站以发现站点上所有已索引的 URL |
| Search 工具 | firecrawl_search | 搜索全网,并可选地从搜索结果中提取内容 |
| Crawl 工具 | firecrawl_crawl | 使用高级选项启动异步爬取 |
| 爬取状态检查 | firecrawl_check_crawl_status | 查看爬取任务状态 |
| Extract 工具 | firecrawl_extract | 利用 LLM 从网页提取结构化信息 |
配置
必需配置
- 使用云端 API(默认)时为必需
- 在配合 FIRECRAWL_API_URL 的自托管实例中为可选
可选配置
FIRECRAWL_API_URL:自定义 API 端点- 示例:
https://firecrawl.your-domain.com - 如未配置,将使用云端 API
FIRECRAWL_RETRY_MAX_ATTEMPTS:最大重试次数(默认:3)FIRECRAWL_RETRY_INITIAL_DELAY:初始延迟(毫秒,默认:1000)FIRECRAWL_RETRY_MAX_DELAY:最大延迟(毫秒,默认:10000)FIRECRAWL_RETRY_BACKOFF_FACTOR:指数退避因子(默认:2)
FIRECRAWL_CREDIT_WARNING_THRESHOLD:警告阈值(默认:1000)FIRECRAWL_CREDIT_CRITICAL_THRESHOLD:严重阈值(默认:100)
示例:网页研究代理
最佳实践
-
为任务选择合适的工具:
- 需要先查找相关页面时使用
firecrawl_search - 抓取单个页面使用
firecrawl_scrape - 已知多个 URL 时使用
firecrawl_batch_scrape - 进行全站发现与抓取使用
firecrawl_crawl
- 需要先查找相关页面时使用
- 监控用量:配置额度阈值,避免意外消耗
- 优雅处理错误:根据你的用例配置重试策略
- 优化性能:在抓取多个 URL 时使用批量操作

