メインコンテンツへスキップ
POST
/
scrape
1つのURLをスクレイピングし、必要に応じてLLMで情報を抽出します
curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "formats": [
    "markdown"
  ],
  "onlyMainContent": true,
  "includeTags": [
    "<string>"
  ],
  "excludeTags": [
    "<string>"
  ],
  "maxAge": 172800000,
  "headers": {},
  "waitFor": 0,
  "mobile": false,
  "skipTlsVerification": true,
  "timeout": 123,
  "parsers": [
    "pdf"
  ],
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2,
      "selector": "#my-element"
    }
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "removeBase64Images": true,
  "blockAds": true,
  "proxy": "auto",
  "storeInCache": true,
  "zeroDataRetention": false
}
'
{
  "success": true,
  "data": {
    "markdown": "<string>",
    "summary": "<string>",
    "html": "<string>",
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "links": [
      "<string>"
    ],
    "actions": {
      "screenshots": [
        "<string>"
      ],
      "scrapes": [
        {
          "url": "<string>",
          "html": "<string>"
        }
      ],
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ]
    },
    "metadata": {
      "title": "<string>",
      "description": "<string>",
      "language": "<string>",
      "sourceURL": "<string>",
      "keywords": "<string>",
      "ogLocaleAlternate": [
        "<string>"
      ],
      "<any other metadata> ": "<string>",
      "statusCode": 123,
      "error": "<string>"
    },
    "warning": "<string>",
    "changeTracking": {
      "previousScrapeAt": "2023-11-07T05:31:56Z",
      "changeStatus": "new",
      "visibility": "visible",
      "diff": "<string>",
      "json": {}
    },
    "branding": {}
  }
}

v2の新機能

新しいフォーマット

  • "summary" - ページ内容の要点を簡潔に取得
  • JSON 抽出はオブジェクト形式を使用: { type: "json", prompt, schema }
  • スクリーンショットのフォーマットはオブジェクト形式を使用: { type: "screenshot", fullPage, quality, viewport }
  • "images" - ページ内のすべての画像 URL を抽出
  • "branding" - 色、フォント、タイポグラフィ、余白、UI コンポーネントを含むブランド・アイデンティティを抽出

主な改善点

  • 標準で高速: リクエストはキャッシュされ、maxAge はデフォルトで2日間
  • 適切なデフォルト: blockAdsskipTlsVerificationremoveBase64Images は標準で有効
  • スクリーンショットオプションの強化: オブジェクトフォーマットでスクリーンショットの各種パラメーターを細かく制御可能

承認

Authorization
string
header
必須

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

ボディ

application/json
url
string<uri>
必須

スクレイピング対象のURL

formats
(Markdown · object | Summary · object | HTML · object | Raw HTML · object | Links · object | Images · object | Screenshot · object | JSON · object | Change Tracking · object | Branding · object)[]

レスポンスに含める出力フォーマットを指定します。1つ以上のフォーマットを、文字列(例: 'markdown')または追加オプションを含むオブジェクト(例: { type: 'json', schema: {...} })として指定できます。一部のフォーマットでは、特定のオプションの設定が必須です。例: ['markdown', { type: 'json', schema: {...} }]

onlyMainContent
boolean
デフォルト:true

ヘッダーやナビゲーション、フッターなどを除外し、ページのメインコンテンツのみを返します。

includeTags
string[]

出力に含めるタグ。

excludeTags
string[]

出力結果から除外するタグ。

maxAge
integer
デフォルト:172800000

ページのキャッシュが、この値(ミリ秒)で指定した有効期間より新しい場合は、そのキャッシュ版を返します。キャッシュがこの値より古い場合は、新たにページのスクレイピングを行います。極めて最新のデータが不要であれば、これを有効にすることでスクレイピングを最大500%高速化できます。デフォルトは2日です。

headers
object

リクエストに含めるヘッダー。Cookie や User-Agent などを送信するために使用できます。

waitFor
integer
デフォルト:0

コンテンツを取得する前に待機する時間をミリ秒単位で指定します。ページが十分に読み込まれるまでの時間を確保するための遅延です。この待機時間は、Firecrawl のスマート待機機能に加えて発生します。

mobile
boolean
デフォルト:false

モバイル端末からのスクレイピングをエミュレートしたい場合は、true に設定します。レスポンシブページのテストやモバイル向けスクリーンショットの取得に便利です。

skipTlsVerification
boolean
デフォルト:true

リクエストを送信する際に TLS 証明書の検証を行わないようにします。

timeout
integer

リクエストのタイムアウト時間(ミリ秒)。

parsers
object[]

スクレイピング時のファイルの処理方法を制御します。"pdf" が含まれている場合(デフォルト)、PDF の内容が抽出されて markdown 形式に変換され、課金はページ数に基づきます(1ページあたり1クレジット)。空の配列を渡した場合、PDF ファイルは base64 エンコード形式で返され、PDF 全体で一律1クレジットが請求されます。

actions
(Wait · object | Screenshot · object | Click · object | Write text · object | Press a key · object | Scroll · object | Scrape · object | Execute JavaScript · object | Generate PDF · object)[]

コンテンツを取得する前にページに対して実行するアクション

location
object

リクエストのロケーション設定です。指定すると、利用可能な場合は適切なプロキシが使用され、対応する言語およびタイムゾーン設定がエミュレートされます。指定されていない場合は、デフォルトで「US」が使用されます。

removeBase64Images
boolean
デフォルト:true

出力からすべての Base64 画像を削除します。これらは非常に長くなる場合があります。画像の alt テキストは出力内に残りますが、URL はプレースホルダーに置き換えられます。

blockAds
boolean
デフォルト:true

広告およびCookie同意ポップアップのブロックを有効化します。

proxy
enum<string>
デフォルト:auto

使用するプロキシの種類を指定します。

  • basic: ボット対策がない、またはごく基本的なボット対策のみが導入されているサイト向けのプロキシです。高速で、通常は問題なく動作します。
  • stealth: 高度なボット対策を行っているサイト向けのステルスプロキシです。basic より遅くなりますが、特定のサイトではより信頼性があります。1 リクエストあたり最大 5 クレジットかかります。
  • auto: basic プロキシが失敗した場合、Firecrawl が自動的にステルスプロキシでスクレイピングを再試行します。ステルスプロキシでの再試行が成功した場合、そのスクレイプに対して 5 クレジットが請求されます。最初の basic での試行が成功した場合は、通常のコストのみが請求されます。
利用可能なオプション:
basic,
stealth,
auto
storeInCache
boolean
デフォルト:true

true の場合、そのページは Firecrawl のインデックスおよびキャッシュに保存されます。スクレイピング活動でデータ保護上の懸念が生じる可能性がある場合は、これを false に設定すると有用です。機密性の高いスクレイピングに関連する一部のパラメータ(例: actions、headers)を使用すると、このパラメータは強制的に false になります。

zeroDataRetention
boolean
デフォルト:false

true の場合、このスクレイプではデータ保持が一切行われません。この機能を有効にするには、[email protected] までご連絡ください。

レスポンス

成功時のレスポンス

success
boolean
data
object