注意:此 API 的 v2 版本 现已推出,具备更高的批处理性能和可靠性。
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
要爬取的 URL
Webhook 规范对象。
最大并发抓取数量。此参数用于为本次批量抓取设置并发上限。若未指定,则本次批量抓取将遵循你的团队并发限制。
如果在 urls 数组中指定了无效 URL,这些 URL 会被忽略。它们不会导致整个请求失败,而是会基于剩余的有效 URL 创建一个批量抓取任务,并在响应的 invalidURLs 字段中返回这些无效 URL。
仅返回页面的主体内容,不包括页眉、导航、页脚等。
需要包含在输出中的标签。
在输出结果中要排除的标签。
如果页面的缓存版本的生成时间距现在小于此值(毫秒),则返回该缓存版本;如果缓存版本早于此值,则会重新抓取页面。如果你不需要极其实时的数据,启用此选项可以将抓取速度最多提升 5 倍。默认值为 0,表示禁用缓存。
随请求发送的请求头。可用于携带 cookies、user-agent 等信息。
设置在获取内容前的延迟时间(毫秒),以便页面有足够时间加载完成。
若要模拟移动端抓取,请将其设置为 true。适用于测试响应式页面并获取移动端截图。
在发送请求时跳过 TLS 证书校验
请求超时时间(毫秒)
控制在爬取过程中如何处理 PDF 文件。为 true 时,会提取 PDF 内容并转换为 Markdown 格式,按页数计费(每页 1 个积分)。为 false 时,会返回以 base64 编码的 PDF 文件,统一按 1 个积分计费。
JSON 配置对象
在抓取页面内容前需要执行的 actions
请求的地理位置设置。指定后,如果可用,将使用合适的代理服务器,并模拟相应的语言和时区设置。如果未指定,默认值为“US”。
从输出中移除所有 Base64 图片,以避免内容过于冗长。图片的替代文本(alt 文本)会保留在输出中,但其 URL 会被占位符替换。
启用广告拦截和 Cookie 弹窗屏蔽。
指定要使用的代理类型。
如果你未指定代理类型,Firecrawl 将默认使用 basic。
basic, stealth, auto 如果为 true,该页面将被存储到 Firecrawl 的索引和缓存中。若你的抓取活动可能涉及数据保护方面的问题,将其设置为 false 会更合适。使用某些与敏感抓取相关的参数(如 actions、headers)时,该参数会被强制设为 false。
输出中要包含的formats。
markdown, html, rawHtml, links, screenshot, screenshot@fullPage, json, changeTracking 用于 changeTracking 的选项(Beta)。仅当在 formats 中包含 'changeTracking' 时才适用。使用 changeTracking 时,还必须同时指定 'markdown' 格式。
若为 true,则此次批量抓取任务将不保留任何数据。要启用此功能,请联系 [email protected]