メインコンテンツへスキップ
POST
/
crawl
オプションに応じて複数のURLをクロールする
curl --request POST \
  --url https://api.firecrawl.dev/v1/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "excludePaths": [
    "<string>"
  ],
  "includePaths": [
    "<string>"
  ],
  "maxDepth": 10,
  "maxDiscoveryDepth": 123,
  "ignoreSitemap": false,
  "ignoreQueryParameters": false,
  "limit": 10000,
  "allowBackwardLinks": false,
  "crawlEntireDomain": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "delay": 123,
  "maxConcurrency": 123,
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "zeroDataRetention": false
}
'
{
  "success": true,
  "id": "<string>",
  "url": "<string>"
}
注記: 機能とパフォーマンスが向上した本 API の新しい v2 バージョンが利用可能です。

承認

Authorization
string
header
必須

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

ボディ

application/json
url
string<uri>
必須

クロールを開始するためのベースURL

excludePaths
string[]

クロール対象からURLを除外するための URL パス名の正規表現パターンです。たとえば、ベース URL が firecrawl.dev の場合に "excludePaths": ["blog/.*"] を設定すると、https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap のように、そのパターンに一致する結果はすべて除外されます。

includePaths
string[]

クロールに含めるURLを指定するための、URLパス名に対する正規表現パターンです。指定したパターンに一致するパスのみがレスポンスに含まれます。たとえば、ベースURLが firecrawl.dev の場合に "includePaths": ["blog/.*"] を設定すると、そのパターンに一致する結果のみが含まれます(例: https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap)。

maxDepth
integer
デフォルト:10

入力されたURLのベースからクロールできる最大の絶対深度です。基本的には、スクレイピング対象となるURLのパス名に含めることができるスラッシュの最大数を指します。

maxDiscoveryDepth
integer

発見順序に基づいてクロールする最大の深さです。ルートサイトおよびサイトマップに含まれるページの発見深度は 0 です。例えば、これを 1 に設定し、かつ ignoreSitemap を有効にした場合、入力した URL と、そのページ上からリンクされているすべての URL のみをクロールします。

ignoreSitemap
boolean
デフォルト:false

クロール時にサイトマップを無視する

ignoreQueryParameters
boolean
デフォルト:false

同じパスを、クエリパラメータを変えて(または付けずに)再度スクレイピングしないでください

limit
integer
デフォルト:10000

クロールするページの最大数です。デフォルトの上限は 10,000 です。

⚠️ 非推奨: 代わりに 'crawlEntireDomain' を使用してください。クローラーが子パスだけでなく、同一階層や親のURLへの内部リンクもたどれるようにします。

crawlEntireDomain
boolean
デフォルト:false

クローラーがたどるリンクの範囲を、子パスだけでなく同一階層や親階層の内部リンクにも広げます。

false: より深い(子)URL だけをクロールします。 → 例: /features/feature-1 → /features/feature-1/tips ✅ → /pricing や / には移動しない ❌

true: 同一階層や親階層のパスを含む、あらゆる内部リンクをクロールします。 → 例: /features/feature-1 → /pricing、/ など ✅

ネストされたパスだけでなく、サイト内部全体を広くカバーしたい場合は true に設定します。

クローラーが外部サイトへのリンクをたどることを許可します。

allowSubdomains
boolean
デフォルト:false

クロール時に、クローラーがメインドメイン配下のサブドメインへのリンクをたどれるようにします。

delay
number

スクレイピング実行間の待機時間(秒)。ウェブサイトのレート制限を遵守するのに役立ちます。

maxConcurrency
integer

同時に実行するスクレイプの最大数。このパラメータで、このクロールに対する同時実行数の上限を設定できます。指定しない場合は、チームの同時実行数上限が適用されます。

webhook
object

Webhook仕様オブジェクト。

scrapeOptions
object
zeroDataRetention
boolean
デフォルト:false

true の場合、このクロールではデータを一切保持しないゼロデータ保持モードが有効になります。この機能を有効にするには、[email protected] までお問い合わせください。

レスポンス

成功時のレスポンス

success
boolean
id
string
url
string<uri>