注意:此 API 的全新 v2 版本 现已上线,功能和性能均有所提升。
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
开始爬取时使用的起始 URL
根据 URL pathname 的正则表达式模式,将匹配的 URL 排除在抓取之外。例如,如果你在基础 URL firecrawl.dev 上设置 "excludePaths": ["blog/.*"],那么所有匹配该模式的结果都会被排除,例如:https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。
用于在抓取中指定要包含哪些 URL 的 URL 路径名正则表达式模式。只有与指定模式匹配的路径才会包含在响应中。例如,如果你为基础 URL firecrawl.dev 设置 "includePaths": ["blog/.*"],则只有与该模式匹配的结果会被包含,例如:https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。
从输入 URL 的基础路径开始可爬取的最大绝对深度。简单来说,就是被抓取 URL 的路径名中允许包含的斜杠数量上限。
基于发现顺序的最大抓取深度。根站点及站点地图中的页面的发现深度为 0。比如,如果你将其设置为 1,并启用 ignoreSitemap,你只会抓取输入的 URL,以及该页面上所有被链接到的 URL。
爬取时忽略网站的 sitemap
请勿对同一路径使用不同(或无)查询参数进行重复抓取
要抓取的最大页面数。默认上限为 10000。
⚠️ 已弃用:请改用“crawlEntireDomain”。此选项允许爬虫跟踪指向同级或父级 URL 的内部链接,而不仅限于子路径。
允许爬虫跟踪到同级或父级的站内链接,而不仅仅是子路径。
false:只爬取更深层(子级)URL。 → 例如 /features/feature-1 → /features/feature-1/tips ✅ → 不会跟踪 /pricing 或 / ❌
true:爬取任意站内链接,包括同级和父级。 → 例如 /features/feature-1 → /pricing、/ 等 ✅
当需要在嵌套路径之外更广泛地覆盖站内链接时,将其设置为 true。
允许爬虫跟随链接访问外部网站。
允许爬虫跟随指向主域子域的链接。
每次抓取之间的延迟时间(秒)。有助于遵守网站的速率限制。
最大抓取并发数。该参数用于为本次抓取任务设置并发上限;如果未指定,将沿用你团队的并发限制。
Webhook 规范对象。
如果为 true,则本次爬取将不会保留任何数据。若要启用此功能,请联系 [email protected]