"summary" - 获取页面内容的精要摘要{ type: "json", prompt, schema }{ type: "screenshot", fullPage, quality, viewport }"images" - 提取页面中的所有图片 URL"branding" - 提取品牌识别信息,包括颜色、字体、排版、间距和 UI 组件maxAge 默认为 2 天blockAds、skipTlsVerification 和 removeBase64Images 默认开启Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
要爬取的 URL
要在响应中包含的输出 formats。你可以指定一个或多个 formats,既可以使用字符串(例如:'markdown'),也可以使用带有其他选项的对象(例如:{ type: 'json', schema: {...} })。某些 formats 需要配置特定选项。示例:['markdown', { type: 'json', schema: {...} }]。
仅返回页面的主要内容,不包含 header、nav、footer 等元素。
在输出中要包含的标签。
在输出中需要排除的标签。
如果页面的缓存版本的生成时间距今少于该毫秒数,则返回该缓存页面;如果缓存版本距今超过该时间,则会重新抓取页面。若你不需要特别新的数据,启用此选项可将抓取速度提升至 5 倍。默认值为 2 天。
随请求发送的请求头。可用于传递 cookies、User-Agent 等信息。
指定在抓取内容前的延迟时间(毫秒),以便页面有足够时间完成加载。该等待时间是在 Firecrawl 的智能等待功能基础上的额外等待。
若要模拟在移动设备上进行抓取,请将其设置为 true。适用于测试响应式页面并获取移动端截图。
在发起请求时跳过 TLS 证书验证。
请求的超时时间(毫秒)。
用于控制在抓取过程中如何处理文件。包含 "pdf" 时(默认),会提取 PDF 内容并转换为 Markdown 格式,计费基于页数(每页 1 点数)。当传入空数组时,会以 base64 编码返回整个 PDF 文件,并对整份 PDF 按单一费率收取 1 点数。
在抓取页面内容之前需要执行的页面 actions
请求的地理位置设置。指定后,如果有可用的代理,将使用合适的代理,并模拟相应的语言和时区设置。如果未指定,则默认为“US”。
从输出中移除所有 Base64 编码图片,以避免内容过于冗长。图片的 alt 文本会保留在输出中,但其 URL 会被占位符替换。
启用广告拦截和 Cookie 弹窗拦截功能。
指定要使用的代理类型。
basic, stealth, auto 如果为 true,该页面会存储到 Firecrawl 的索引和缓存中。如果你的抓取操作可能涉及数据保护方面的顾虑,将其设置为 false 会很有用。使用某些与敏感抓取相关的参数(例如 actions、headers)时,会被强制将此参数设为 false。
如果为 true,则本次抓取将不保留任何数据。要启用此功能,请联系 [email protected]