- 複雑な処理を代行:プロキシ、キャッシュ、レート制限、JSでブロックされたコンテンツ
- 動的コンテンツに対応:動的サイト、JSレンダリングサイト、PDF、画像
- クリーンなMarkdown、構造化データ、スクリーンショット、またはHTMLを出力
FirecrawlでURLをスクレイピングする
/scrape エンドポイント
インストール
使い方
レスポンス
SDK はデータオブジェクトを直接返します。cURL は以下のとおり、ペイロードをそのまま返します。スクレイプのフォーマット
- Markdown (
markdown) - Summary (
summary) - HTML (
html) - Raw HTML (
rawHtml)(変更なし) - Screenshot (
screenshot、fullPage、quality、viewportなどのオプションあり) - Links (
links) - JSON (
json) - 構造化された出力 - Images (
images) - ページ内のすべての画像URLを抽出 - Branding (
branding) - ブランドアイデンティティとデザインシステムを抽出
ブランドアイデンティティの抽出
/scrape(ブランディング付き)エンドポイント
レスポンス
ブランディングフォーマットは、以下の構造を持つ包括的なBrandingProfile オブジェクトを返します。
Output
ブランディングプロファイルの構造
branding オブジェクトには次のプロパティが含まれます:
colorScheme: 検出された配色("light"または"dark")logo: メインロゴの URLcolors: ブランドカラーを含むオブジェクト:primary,secondary,accent: 主要なブランドカラーbackground,textPrimary,textSecondary: UI カラーlink,success,warning,error: セマンティックカラー
fonts: ページで使用されているフォントファミリーの配列typography: タイポグラフィの詳細情報:fontFamilies: 基本、見出し、コード用のフォントファミリーfontSizes: 見出しと本文のサイズ定義fontWeights: ウェイトの定義(light、regular、medium、bold)lineHeights: テキスト種別ごとの行の高さ
spacing: 余白とレイアウト情報:baseUnit: 基準となるスペーシング単位(px)borderRadius: 既定の角丸半径padding,margins: スペーシング値
components: UI コンポーネントのスタイル:buttonPrimary,buttonSecondary: ボタンスタイルinput: 入力フィールドのスタイル
icons: アイコンのスタイル情報images: ブランド画像(ロゴ、favicon、og:image)animations: アニメーションおよびトランジション設定layout: レイアウト構成(グリッド、ヘッダー/フッターの高さ)personality: ブランドの特性(トーン、エネルギー、対象ユーザー)
他のフォーマットとの併用
構造化データの抽出
/scrape(json あり)エンドポイント
JSON
スキーマなしでの抽出
prompt を渡すだけで、スキーマなしで抽出できます。LLM がデータ構造を決定します。
JSON
JSON フォーマットのオプション
json フォーマットを使用する場合は、formats 内に以下のパラメータを含むオブジェクトを渡します:
schema: 構造化出力のための JSON Schema。prompt: スキーマがある場合や、軽い指示で十分な場合に抽出を補助する任意のプロンプト。
アクションを使ってページとやり取りする
wait アクションを使用することが重要です。
例
出力
ロケーションと言語
仕組み
使い方
location オブジェクトを含め、次のプロパティを指定します:
country: ISO 3166-1 alpha-2 の国コード(例: ‘US’, ‘AU’, ‘DE’, ‘JP’)。既定値は ‘US’。languages: 優先度順に並べた、リクエストで使用する希望言語およびロケールの配列。既定値は指定した location の言語。
キャッシュと maxAge
- デフォルトの鮮度ウィンドウ:
maxAge = 172800000ms(2日)。キャッシュされたページがこの値より新しければ即時に返し、そうでなければスクレイプしてからキャッシュします。 - パフォーマンス: データが厳密な最新性を要さない場合、スクレイプを最大5倍高速化できます。
- 常に最新を取得:
maxAgeを0に設定します。 - 保存しない: このリクエストの結果を Firecrawl にキャッシュ/保存させたくない場合は、
storeInCacheをfalseに設定します。
複数のURLのバッチスクレイピング
仕組み
/crawl エンドポイントの動作に非常によく似ています。バッチスクレイプのジョブを送信し、進行状況を確認するためのジョブIDを返します。
SDK は同期型と非同期型の2つのメソッドを提供します。同期型はバッチスクレイプジョブの結果を返し、非同期型はバッチスクレイプのステータス確認に使えるジョブIDを返します。
使い方
Response
同期処理
完了
非同期
/batch/scrape/{id} エンドポイントを呼び出し、バッチスクレイプのステータスを確認できます。 このエンドポイントは、ジョブの実行中、または完了直後に使用することを想定しています。バッチスクレイプのジョブは24時間で有効期限が切れるためです。

