Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
用于开始爬取的基础 URL
用于根据自然语言生成爬虫选项(包括下方的所有参数)的提示词。显式指定的参数会覆盖生成的对应参数。
用于将匹配的 URL 排除在爬取之外的 URL 路径名正则表达式模式。例如,如果你为基础 URL firecrawl.dev 设置 "excludePaths": ["blog/.*"],那么所有匹配该模式的结果都会被排除,例如:https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。
在抓取过程中用于匹配 URL 的 URL 路径正则表达式规则。只有路径满足这些规则的页面才会包含在响应中。注意:起始 URL 也会基于这些规则进行检查——如果起始 URL 不匹配,本次抓取可能返回 0 个页面。例如,如果你在基础 URL firecrawl.dev/blog 下设置 "includePaths": ["blog/.*"],那么结果中只会包含 /blog/ 下的页面,比如:https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。
根据页面被发现的顺序设定的最大爬取深度。根站点和 sitemap 中的页面的发现深度为 0。比如,如果你将其设置为 1,并将 sitemap 设置为 'skip',则只会爬取你输入的 URL 以及该页面上链接到的所有 URL。
爬取时的 Sitemap 处理模式。若设置为“skip”,爬虫会忽略站点的 Sitemap,只爬取你提供的起始 URL,并从该页面开始按发现的链接继续爬取。若设置为“only”,爬虫只会根据 Sitemap 中的 URL(加上起始 URL)进行爬取,不会再从页面 HTML 中继续发现并跟进新的链接。
skip, include, only 不要对同一路径使用不同(或没有)查询参数重复抓取
当设为 true 时,includePaths 和 excludePaths 的正则表达式会匹配完整 URL(包括查询参数),而不仅仅是 URL 的路径部分。适用于需要基于查询字符串过滤 URL 的场景。
最大爬取页数。默认值为 10000。
允许爬虫不仅跟踪子路径,还能跟踪同级或父级的站内链接。
false:只爬取更深层(子级)URL。 → 例如 /features/feature-1 → /features/feature-1/tips ✅ → 不会跟踪 /pricing 或 / ❌
true:会爬取任意站内链接,包括同级和父级。 → 例如 /features/feature-1 → /pricing、/ 等 ✅
如需在嵌套路径之外更广泛地覆盖站内页面,请将其设置为 true。
允许爬虫通过链接访问外部网站。
允许爬虫通过链接继续爬取主域名下的子域名。
两次抓取之间的延迟时间(以秒为单位)。有助于遵守网站的速率限制。
最大并发抓取数量。此参数允许你为本次抓取设置并发上限。如果未指定,则本次抓取将遵循你所在团队的并发限制。
一个 Webhook 规范对象。
如果设置为 true,将为本次抓取任务启用零数据保留。要启用此功能,请联系 help@firecrawl.dev