- 複雑な処理を吸収:プロキシ、キャッシュ、レート制限、JSでブロックされたコンテンツ
- 動的コンテンツにも対応:動的サイト、JSレンダリングサイト、PDF、画像
- クリーンなMarkdown、構造化データ、スクリーンショット、HTMLを出力
FirecrawlでURLをスクレイピングする
/scrape エンドポイント
インストール
使い方
レスポンス
スクレイプのフォーマット
- Markdown (
markdown
) - Summary (
summary
) - HTML (
html
) - Raw HTML (
rawHtml
)(無加工) - Screenshot (
screenshot
、fullPage
、quality
、viewport
などのオプションあり) - Links (
links
) - JSON (
json
) - 構造化出力
構造化データの抽出
/scrape(json あり)エンドポイント
JSON
スキーマなしでの抽出
prompt
を渡すだけで、スキーマなしで抽出できます。LLM がデータ構造を決定します。
JSON
JSON フォーマットのオプション
json
フォーマットを使用する場合は、formats
内に以下のパラメータを含むオブジェクトを渡します:
schema
: 構造化出力のための JSON Schema。prompt
: スキーマがある場合や、軽い指示で十分な場合に抽出を補助する任意のプロンプト。
アクションを使ってページとやり取りする
wait
アクションを使用することが重要です。
例
出力
ロケーションと言語
仕組み
使い方
location
オブジェクトを含め、次のプロパティを指定します:
country
: ISO 3166-1 alpha-2 の国コード(例: ‘US’, ‘AU’, ‘DE’, ‘JP’)。既定値は ‘US’。languages
: 優先度順に並べた、リクエストで使用する希望言語およびロケールの配列。既定値は指定した location の言語。
キャッシュと maxAge
- デフォルトの鮮度ウィンドウ:
maxAge = 172800000
ms(2日)。キャッシュされたページがこの値より新しければ即時に返し、そうでなければスクレイプしてからキャッシュします。 - パフォーマンス: データが厳密な最新性を要さない場合、スクレイプを最大5倍高速化できます。
- 常に最新を取得:
maxAge
を0
に設定します。 - 保存しない: このリクエストの結果を Firecrawl にキャッシュ/保存させたくない場合は、
storeInCache
をfalse
に設定します。
複数のURLのバッチスクレイピング
仕組み
/crawl
エンドポイントの動作に非常によく似ています。バッチスクレイプのジョブを送信し、進行状況を確認するためのジョブIDを返します。
SDK は同期型と非同期型の2つのメソッドを提供します。同期型はバッチスクレイプジョブの結果を返し、非同期型はバッチスクレイプのステータス確認に使えるジョブIDを返します。
使い方
Response
同期処理
完了
非同期
/batch/scrape/{id}
エンドポイントを呼び出し、バッチスクレイプのステータスを確認できます。 このエンドポイントは、ジョブの実行中、または完了直後に使用することを想定しています。バッチスクレイプのジョブは24時間で有効期限が切れるためです。