安装
Node
使用
- 在 firecrawl.dev 获取 API 密钥
- 将该密钥设置为名为
FIRECRAWL_API_KEY
的环境变量,或作为参数传递给FirecrawlApp
类。
Node
抓取单个 URL
scrapeUrl
方法。它接收 URL 作为参数,并以字典形式返回抓取结果。
Node
爬取网站
crawlUrl
方法。它接收起始 URL 和可选参数。通过 params
参数,你可以为爬取任务指定其他选项,例如最大爬取页数、允许的域名以及输出格式。有关自动/手动分页与限制的说明,请参见 Pagination。
Node(Node.js)
启动 Crawl
startCrawl
可立即启动作业且无需等待。它会返回一个作业 ID
,可用于查询状态。若需要在完成前阻塞等待的方式,请使用 crawl
。分页行为和限制详见 Pagination。
Node
检查爬取状态
checkCrawlStatus
方法。它接收 ID
作为参数,并返回该爬取任务的当前状态。
Node
取消爬取
cancelCrawl
方法。该方法接收 startCrawl
返回的任务 ID 作为参数,并返回取消结果。
Node
网站映射
mapUrl
方法。该方法接收起始 URL 作为参数,并以字典形式返回映射结果。
Node
使用 WebSockets 爬取网站
crawlUrlAndWatch
方法。它接受起始 URL 和可选参数。params
参数可用于为爬取任务指定更多选项,例如最大爬取页数、允许的域名,以及输出 formats。
Node
分页
next
URL。Node SDK 默认会自动分页并汇总所有文档;在这种情况下,next
将为 null
。你可以禁用自动分页或设置上限。
抓取
crawl
以获得最简便的体验,或启动一个任务并手动逐页处理。
简单爬取(自动分页,默认)
- 请参阅网站爬取中的默认流程。
手动抓取与分页控制(单页)
- 先启动作业,然后将
autoPaginate: false
设置为禁用自动分页,逐页获取。
节点
设有限制的手动抓取(自动分页 + 提前停止)
- 保持自动分页开启,但可通过
maxPages
、maxResults
或maxWaitTime
提前停止。
节点
批量抓取
batchScrape
,或手动启动作业并逐页处理。
简单批量抓取(自动分页,默认)
- 默认流程请参见批量抓取。
手动批量抓取并控制分页(单页)
- 启动作业,将
autoPaginate: false
以禁用自动分页,并按页逐一获取。
Node
手动批量抓取并设定限制(自动分页 + 提前停止)
- 保持自动分页开启,但可通过
maxPages
、maxResults
或maxWaitTime
提前停止。
Node
错误处理
try/catch
代码块来处理这些错误。