抓取 - Firecrawl Docs

根据参数爬取多个 URL

curl --request POST \
  --url https://api.firecrawl.dev/v2/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "prompt": "<string>",
  "excludePaths": [
    "<string>"
  ],
  "includePaths": [
    "<string>"
  ],
  "maxDiscoveryDepth": 123,
  "sitemap": "include",
  "ignoreQueryParameters": false,
  "regexOnFullURL": false,
  "limit": 10000,
  "crawlEntireDomain": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "delay": 123,
  "maxConcurrency": 123,
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "scrapeOptions": {
    "formats": [
      "markdown"
    ],
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 172800000,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": true,
    "timeout": 30000,
    "parsers": [
      "pdf"
    ],
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "auto",
    "storeInCache": true
  },
  "zeroDataRetention": false
}
'

{
  "success": true,
  "id": "<string>",
  "url": "<string>"
}

POST

crawl

根据参数爬取多个 URL

curl --request POST \
  --url https://api.firecrawl.dev/v2/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "prompt": "<string>",
  "excludePaths": [
    "<string>"
  ],
  "includePaths": [
    "<string>"
  ],
  "maxDiscoveryDepth": 123,
  "sitemap": "include",
  "ignoreQueryParameters": false,
  "regexOnFullURL": false,
  "limit": 10000,
  "crawlEntireDomain": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "delay": 123,
  "maxConcurrency": 123,
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "scrapeOptions": {
    "formats": [
      "markdown"
    ],
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 172800000,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": true,
    "timeout": 30000,
    "parsers": [
      "pdf"
    ],
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "auto",
    "storeInCache": true
  },
  "zeroDataRetention": false
}
'

{
  "success": true,
  "id": "<string>",
  "url": "<string>"
}

授权

Authorization

string

header

必填

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

请求体

application/json

url

string<uri>

必填

用于开始爬取的基础 URL

prompt

string

用于根据自然语言生成爬虫选项（包括下方的所有参数）的提示词。显式指定的参数会覆盖生成的对应参数。

excludePaths

string[]

用于将匹配的 URL 排除在爬取之外的 URL 路径名正则表达式模式。例如，如果你为基础 URL firecrawl.dev 设置 "excludePaths": ["blog/.*"]，那么所有匹配该模式的结果都会被排除，例如：https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。

includePaths

string[]

在抓取过程中用于匹配 URL 的 URL 路径正则表达式规则。只有路径满足这些规则的页面才会包含在响应中。注意：起始 URL 也会基于这些规则进行检查——如果起始 URL 不匹配，本次抓取可能返回 0 个页面。例如，如果你在基础 URL firecrawl.dev/blog 下设置 "includePaths": ["blog/.*"]，那么结果中只会包含 /blog/ 下的页面，比如：https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap。

maxDiscoveryDepth

integer

根据页面被发现的顺序设定的最大爬取深度。根站点和 sitemap 中的页面的发现深度为 0。比如，如果你将其设置为 1，并将 sitemap 设置为 'skip'，则只会爬取你输入的 URL 以及该页面上链接到的所有 URL。

sitemap

enum<string>

默认值:include

爬取时的 Sitemap 处理模式。若设置为“skip”，爬虫会忽略站点的 Sitemap，只爬取你提供的起始 URL，并从该页面开始按发现的链接继续爬取。若设置为“only”，爬虫只会根据 Sitemap 中的 URL（加上起始 URL）进行爬取，不会再从页面 HTML 中继续发现并跟进新的链接。

可用选项:

skip,

include,

only

ignoreQueryParameters

boolean

默认值:false

不要对同一路径使用不同（或没有）查询参数重复抓取

regexOnFullURL

boolean

默认值:false

当设为 true 时，includePaths 和 excludePaths 的正则表达式会匹配完整 URL（包括查询参数），而不仅仅是 URL 的路径部分。适用于需要基于查询字符串过滤 URL 的场景。

limit

integer

默认值:10000

最大爬取页数。默认值为 10000。

crawlEntireDomain

boolean

默认值:false

允许爬虫不仅跟踪子路径，还能跟踪同级或父级的站内链接。

false：只爬取更深层（子级）URL。 → 例如 /features/feature-1 → /features/feature-1/tips ✅ → 不会跟踪 /pricing 或 / ❌

true：会爬取任意站内链接，包括同级和父级。 → 例如 /features/feature-1 → /pricing、/ 等 ✅

如需在嵌套路径之外更广泛地覆盖站内页面，请将其设置为 true。

allowExternalLinks

boolean

默认值:false

允许爬虫通过链接访问外部网站。

allowSubdomains

boolean

默认值:false

允许爬虫通过链接继续爬取主域名下的子域名。

delay

number

两次抓取之间的延迟时间（以秒为单位）。有助于遵守网站的速率限制。

maxConcurrency

integer

最大并发抓取数量。此参数允许你为本次抓取设置并发上限。如果未指定，则本次抓取将遵循你所在团队的并发限制。

webhook

object

一个 Webhook 规范对象。

显示子属性

scrapeOptions

object

显示子属性

zeroDataRetention

boolean

默认值:false

如果设置为 true，将为本次抓取任务启用零数据保留。要启用此功能，请联系 help@firecrawl.dev

响应

成功的响应

success

boolean

string

url

string<uri>

Map（映射）

获取抓取状态

使用 API

抓取 API

搜索 API

Map API

爬取 API

浏览器 API

Agent API

抽取 API

账户 API

抓取

授权

请求体

响应