メインコンテンツへスキップ
POST
/
batch
/
scrape
複数のURLをスクレイピングし、必要に応じてLLMを使って情報を抽出する
curl --request POST \
  --url https://api.firecrawl.dev/v1/batch/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "maxConcurrency": 123,
  "ignoreInvalidURLs": false,
  "onlyMainContent": true,
  "includeTags": [
    "<string>"
  ],
  "excludeTags": [
    "<string>"
  ],
  "maxAge": 0,
  "headers": {},
  "waitFor": 0,
  "mobile": false,
  "skipTlsVerification": false,
  "timeout": 30000,
  "parsePDF": true,
  "jsonOptions": {
    "schema": {},
    "systemPrompt": "<string>",
    "prompt": "<string>"
  },
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2,
      "selector": "#my-element"
    }
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "removeBase64Images": true,
  "blockAds": true,
  "proxy": "basic",
  "storeInCache": true,
  "formats": [
    "markdown"
  ],
  "changeTrackingOptions": {
    "modes": [
      "git-diff"
    ],
    "schema": {},
    "prompt": "<string>",
    "tag": null
  },
  "zeroDataRetention": false
}
'
{
  "success": true,
  "id": "<string>",
  "url": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}
注意:この API の新しい v2 バージョン が利用可能になりました。バッチ処理のパフォーマンスと信頼性が向上しています。

承認

Authorization
string
header
必須

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

ボディ

application/json
urls
string<uri>[]
必須

スクレイピング対象のURL

webhook
object

Webhook の仕様を表すオブジェクト。

maxConcurrency
integer

同時スクレイプの最大数。このパラメータで、このバッチスクレイプにおける同時実行数の上限を設定できます。指定しない場合は、チームの同時実行数の上限が適用されます。

ignoreInvalidURLs
boolean
デフォルト:false

urls 配列に無効な URL が含まれている場合、それらは無視されます。無効な URL が原因でリクエスト全体が失敗するのではなく、残りの有効な URL のみを使ってバッチスクレイプが実行され、無効な URL はレスポンスの invalidURLs フィールドで返されます。

onlyMainContent
boolean
デフォルト:true

ヘッダー、ナビゲーション、フッターなどを除き、ページのメインコンテンツのみを返します。

includeTags
string[]

出力に含めるタグ。

excludeTags
string[]

出力結果から除外するタグ。

maxAge
integer
デフォルト:0

ページのキャッシュが、このミリ秒数以内に生成されたものであれば、そのキャッシュされたバージョンを返します。キャッシュされたページがこの値より古い場合は、ページをスクレイピングします。極めて最新のデータが不要な場合、これを有効にすることでスクレイピングを最大 500% 高速化できます。デフォルトは 0 で、この場合キャッシュは無効になります。

headers
object

リクエストに付与して送信するヘッダー。Cookie や User-Agent などを送るために使用できます。

waitFor
integer
デフォルト:0

コンテンツを取得する前に待機する時間(ディレイ)をミリ秒単位で指定します。これにより、ページが十分に読み込まれるまでの時間を確保できます。

mobile
boolean
デフォルト:false

モバイル端末からのスクレイピングを模擬したい場合は true に設定してください。レスポンシブページのテストやモバイル画面のスクリーンショット取得に便利です。

skipTlsVerification
boolean
デフォルト:false

リクエスト時に TLS 証明書の検証をスキップする

timeout
integer
デフォルト:30000

リクエストのタイムアウト(ミリ秒)

parsePDF
boolean
デフォルト:true

スクレイピング中のPDFファイルの処理方法を制御します。true の場合、PDFのコンテンツを抽出してMarkdown形式に変換し、課金はページ数に基づきます(1ページあたり1クレジット)。false の場合、PDFファイルはbase64エンコードされたデータとして返され、合計1クレジットの定額課金となります。

jsonOptions
object

JSON オプションオブジェクト

actions
(Wait · object | Screenshot · object | Click · object | Write text · object | Press a key · object | Scroll · object | Scrape · object | Execute JavaScript · object | Generate PDF · object)[]

ページからコンテンツを取得する前に実行するアクション

location
object

リクエストに対するロケーション設定です。指定されている場合、利用可能であれば適切なプロキシを使用し、対応する言語およびタイムゾーン設定を再現します。指定されていない場合は、デフォルトで 'US' が使用されます。

removeBase64Images
boolean
デフォルト:true

出力から、非常に長くなりがちな Base64 画像をすべて削除します。画像の alt テキストは出力内に残りますが、URL はプレースホルダーに置き換えられます。

blockAds
boolean
デフォルト:true

広告とクッキーポップアップのブロックを有効にします。

proxy
enum<string>

使用するプロキシの種類を指定します。

  • basic: ほとんどボット対策がない、または基本的なボット対策のみが導入されているサイト向けのプロキシです。高速で、通常は問題なく動作します。
  • stealth: 高度なボット対策が導入されているサイト向けのステルスプロキシです。basic より遅くなりますが、特定のサイトではより安定して動作します。1リクエストあたり最大5クレジットを消費します。
  • auto: basic プロキシでのスクレイピングが失敗した場合、Firecrawl が自動的にステルスプロキシで再試行します。ステルスでの再試行が成功した場合、そのスクレイピングには5クレジットが課金されます。最初の basic による試行が成功した場合は、通常の料金のみが課金されます。

プロキシを指定しない場合、Firecrawl はデフォルトで basic を使用します。

利用可能なオプション:
basic,
stealth,
auto
storeInCache
boolean
デフォルト:true

true の場合、そのページは Firecrawl のインデックスおよびキャッシュに保存されます。スクレイピング内容がデータ保護上の懸念を伴う可能性がある場合は、これを false に設定するのが有効です。機密性の高いスクレイピングに関連する一部のパラメータ(アクションやヘッダーなど)を使用すると、このパラメータは強制的に false に設定されます。

formats
enum<string>[]

出力に含めるフォーマット。

利用可能なオプション:
markdown,
html,
rawHtml,
links,
screenshot,
screenshot@fullPage,
json,
changeTracking
changeTrackingOptions
object

変更追跡用のオプション(ベータ版)。changeTracking がフォーマットに含まれている場合にのみ有効です。変更追跡を使用する際は、markdown フォーマットも指定する必要があります。

zeroDataRetention
boolean
デフォルト:false

true の場合、このバッチスクレイプではデータを一切保持しないゼロデータ保持モードが有効になります。この機能を有効にするには、[email protected] までご連絡ください。

レスポンス

成功時のレスポンス

success
boolean
id
string
url
string<uri>
invalidURLs
string[] | null

ignoreInvalidURLs が true の場合、この配列にはリクエストで指定された無効な URL が含まれます。無効な URL が存在しない場合、この配列は空になります。ignoreInvalidURLs が false の場合、このフィールドは undefined になります。