sitemap オプションで次のいずれかを選択できます:
"include"(デフォルト): サイトマップを利用しつつ、その他のページも自動的に発見します。"skip": サイトマップを一切参照しません。crawlEntireDomain - 子ページだけでなくドメイン全体をクロールmaxDiscoveryDepth - クロールの深さを制御(maxDepth を置き換え)Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
クロールを開始するベースURL
自然言語からクローラーオプション(以下のすべてのパラメーター)を生成するために使用するプロンプトです。明示的に設定されたパラメーターは、生成された対応する値よりも優先されます。
クロールから除外する URL パス名の正規表現パターンです。たとえば、ベース URL が firecrawl.dev の場合に "excludePaths": ["blog/.*"] を設定すると、https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap のようにそのパターンにマッチする URL はすべて除外されます。
クロールに含めるURLを指定するための、URLパスに対する正規表現パターンです。指定したパターンにマッチするパスのみがレスポンスに含まれます。たとえば、ベースURLが firecrawl.dev の場合に "includePaths": ["blog/.*"] を設定すると、https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap のように、そのパターンにマッチする結果のみが含まれます。
検出順序に基づいてクロールする最大深度です。ルートサイトおよびサイトマップに含まれるページの検出深度は 0 です。例えば、これを 1 に設定し、かつ sitemap: 'skip' を指定した場合、入力した URL と、そのページからリンクされているすべての URL だけをクロールします。
クロール時のサイトマップモードです。これを「skip」に設定すると、クローラーはサイトのサイトマップを無視し、指定したURLのみを起点として、そこから発見したページだけをクロールします。
skip, include 同じパスを、クエリパラメータの有無や値を変えて再スクレイプしないでください
クロールするページ数の最大値。デフォルトの上限は 10,000 です。
クローラーが子パスだけでなく、同一階層(兄弟)や親の URL への内部リンクもたどれるようにします。
false: より深い(子)URL だけをクロールします。 → 例: /features/feature-1 → /features/feature-1/tips ✅ → /pricing や / には遷移しません ❌
true: 同一階層や親階層を含む、あらゆる内部リンクをクロールします。 → 例: /features/feature-1 → /pricing、/ など ✅
入れ子になったパスよりも広く内部ページ全体をカバーしたい場合は true を使用します。
クローラーが外部のウェブサイトへのリンクをたどれるようにします。
クローラーがメインドメイン配下のサブドメインへのリンクをたどれるようにします。
スクレイプ実行間の待機時間(秒)。ウェブサイト側のレート制限を尊重するのに役立ちます。
同時スクレイプ数の上限。このパラメータで、このクロールに対する同時実行数の上限を設定できます。指定しない場合、このクロールはチームに設定されている同時実行数の上限に従います。
Webhook 仕様オブジェクト。
true の場合、このクロールではデータを一切保持しないゼロデータ保持モードが有効になります。この機能を有効化するには、[email protected] までご連絡ください。