スクレイプ - Firecrawl Docs

1つのURLをスクレイピングし、必要に応じてLLMで情報を抽出します

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "milliseconds": 2,
      "type": "wait"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "formats": [
    "markdown"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "lockdown": false,
  "maxAge": 172800000,
  "minAge": 123,
  "mobile": false,
  "onlyCleanContent": false,
  "onlyMainContent": true,
  "parsers": [
    "pdf"
  ],
  "proxy": "auto",
  "redactPII": false,
  "removeBase64Images": true,
  "skipTlsVerification": true,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 60000,
  "waitFor": 0,
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v2/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "milliseconds": 2,
            "type": "wait"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "formats": ["markdown"],
    "headers": {},
    "includeTags": ["<string>"],
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "lockdown": False,
    "maxAge": 172800000,
    "minAge": 123,
    "mobile": False,
    "onlyCleanContent": False,
    "onlyMainContent": True,
    "parsers": ["pdf"],
    "proxy": "auto",
    "redactPII": False,
    "removeBase64Images": True,
    "skipTlsVerification": True,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 60000,
    "waitFor": 0,
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{milliseconds: 2, type: 'wait'}],
    blockAds: true,
    excludeTags: ['<string>'],
    formats: ['markdown'],
    headers: {},
    includeTags: ['<string>'],
    location: {country: 'US', languages: ['en-US']},
    lockdown: false,
    maxAge: 172800000,
    minAge: 123,
    mobile: false,
    onlyCleanContent: false,
    onlyMainContent: true,
    parsers: ['pdf'],
    proxy: 'auto',
    redactPII: false,
    removeBase64Images: true,
    skipTlsVerification: true,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 60000,
    waitFor: 0,
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v2/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v2/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'milliseconds' => 2,
                'type' => 'wait'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'formats' => [
        'markdown'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'lockdown' => false,
    'maxAge' => 172800000,
    'minAge' => 123,
    'mobile' => false,
    'onlyCleanContent' => false,
    'onlyMainContent' => true,
    'parsers' => [
        'pdf'
    ],
    'proxy' => 'auto',
    'redactPII' => false,
    'removeBase64Images' => true,
    'skipTlsVerification' => true,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 60000,
    'waitFor' => 0,
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v2/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v2/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v2/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "answer": "<string>",
    "audio": "<string>",
    "branding": {
      "animations": {},
      "colors": {
        "accent": "<string>",
        "background": "<string>",
        "error": "<string>",
        "link": "<string>",
        "primary": "<string>",
        "secondary": "<string>",
        "success": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "warning": "<string>"
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "input": {}
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "icons": {},
      "images": {
        "favicon": "<string>",
        "logo": "<string>",
        "ogImage": "<string>"
      },
      "layout": {},
      "logo": "<string>",
      "personality": {},
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "margins": {},
        "padding": {}
      },
      "typography": {
        "fontFamilies": {
          "code": "<string>",
          "heading": "<string>",
          "primary": "<string>"
        },
        "fontSizes": {
          "body": "<string>",
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>"
        },
        "fontWeights": {
          "bold": 123,
          "light": 123,
          "medium": 123,
          "regular": 123
        },
        "lineHeights": {
          "body": "<string>",
          "heading": "<string>"
        }
      }
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "highlights": "<string>",
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "markdown": "<string>",
    "menu": {
      "isMenu": true,
      "sections": [
        {
          "items": [
            {
              "name": "<string>",
              "availability": {
                "inStock": true,
                "text": "<string>"
              },
              "calories": 123,
              "description": "<string>",
              "dietary": [
                "<string>"
              ],
              "id": "<string>",
              "identifiers": {
                "merchantItemId": "<string>"
              },
              "images": [
                {
                  "url": "<string>",
                  "alt": "<string>"
                }
              ],
              "optionGroups": [
                {}
              ],
              "price": {
                "amount": 123,
                "currency": "<string>",
                "formatted": "<string>"
              },
              "sourceUrl": "<string>",
              "url": "<string>"
            }
          ],
          "name": "<string>",
          "description": "<string>",
          "id": "<string>"
        }
      ],
      "confidence": 123,
      "currency": "<string>",
      "merchant": {
        "name": "<string>",
        "type": "<string>"
      },
      "sourceUrl": "<string>"
    },
    "metadata": {
      "<any other metadata> ": "<string>",
      "concurrencyLimited": true,
      "concurrencyQueueDurationMs": 123,
      "contentType": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123,
      "url": "<string>"
    },
    "product": {
      "title": "<string>",
      "url": "<string>",
      "variants": [
        {
          "availability": {
            "inStock": true,
            "text": "<string>"
          },
          "id": "<string>",
          "images": [
            {
              "url": "<string>",
              "alt": "<string>"
            }
          ],
          "price": {
            "amount": 123,
            "currency": "<string>",
            "formatted": "<string>"
          },
          "sale": {
            "originalPrice": {
              "amount": 123,
              "currency": "<string>",
              "formatted": "<string>"
            }
          },
          "sku": "<string>",
          "title": "<string>",
          "values": {}
        }
      ],
      "brand": "<string>",
      "category": "<string>",
      "description": "<string>"
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "summary": "<string>",
    "video": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "code": "UNKNOWN_ERROR",
  "error": "An unexpected error occurred on the server.",
  "success": false
}

POST

scrape

1つのURLをスクレイピングし、必要に応じてLLMで情報を抽出します

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "milliseconds": 2,
      "type": "wait"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "formats": [
    "markdown"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "lockdown": false,
  "maxAge": 172800000,
  "minAge": 123,
  "mobile": false,
  "onlyCleanContent": false,
  "onlyMainContent": true,
  "parsers": [
    "pdf"
  ],
  "proxy": "auto",
  "redactPII": false,
  "removeBase64Images": true,
  "skipTlsVerification": true,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 60000,
  "waitFor": 0,
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v2/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "milliseconds": 2,
            "type": "wait"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "formats": ["markdown"],
    "headers": {},
    "includeTags": ["<string>"],
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "lockdown": False,
    "maxAge": 172800000,
    "minAge": 123,
    "mobile": False,
    "onlyCleanContent": False,
    "onlyMainContent": True,
    "parsers": ["pdf"],
    "proxy": "auto",
    "redactPII": False,
    "removeBase64Images": True,
    "skipTlsVerification": True,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 60000,
    "waitFor": 0,
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{milliseconds: 2, type: 'wait'}],
    blockAds: true,
    excludeTags: ['<string>'],
    formats: ['markdown'],
    headers: {},
    includeTags: ['<string>'],
    location: {country: 'US', languages: ['en-US']},
    lockdown: false,
    maxAge: 172800000,
    minAge: 123,
    mobile: false,
    onlyCleanContent: false,
    onlyMainContent: true,
    parsers: ['pdf'],
    proxy: 'auto',
    redactPII: false,
    removeBase64Images: true,
    skipTlsVerification: true,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 60000,
    waitFor: 0,
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v2/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v2/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'milliseconds' => 2,
                'type' => 'wait'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'formats' => [
        'markdown'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'lockdown' => false,
    'maxAge' => 172800000,
    'minAge' => 123,
    'mobile' => false,
    'onlyCleanContent' => false,
    'onlyMainContent' => true,
    'parsers' => [
        'pdf'
    ],
    'proxy' => 'auto',
    'redactPII' => false,
    'removeBase64Images' => true,
    'skipTlsVerification' => true,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 60000,
    'waitFor' => 0,
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v2/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v2/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v2/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "answer": "<string>",
    "audio": "<string>",
    "branding": {
      "animations": {},
      "colors": {
        "accent": "<string>",
        "background": "<string>",
        "error": "<string>",
        "link": "<string>",
        "primary": "<string>",
        "secondary": "<string>",
        "success": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "warning": "<string>"
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "input": {}
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "icons": {},
      "images": {
        "favicon": "<string>",
        "logo": "<string>",
        "ogImage": "<string>"
      },
      "layout": {},
      "logo": "<string>",
      "personality": {},
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "margins": {},
        "padding": {}
      },
      "typography": {
        "fontFamilies": {
          "code": "<string>",
          "heading": "<string>",
          "primary": "<string>"
        },
        "fontSizes": {
          "body": "<string>",
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>"
        },
        "fontWeights": {
          "bold": 123,
          "light": 123,
          "medium": 123,
          "regular": 123
        },
        "lineHeights": {
          "body": "<string>",
          "heading": "<string>"
        }
      }
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "highlights": "<string>",
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "markdown": "<string>",
    "menu": {
      "isMenu": true,
      "sections": [
        {
          "items": [
            {
              "name": "<string>",
              "availability": {
                "inStock": true,
                "text": "<string>"
              },
              "calories": 123,
              "description": "<string>",
              "dietary": [
                "<string>"
              ],
              "id": "<string>",
              "identifiers": {
                "merchantItemId": "<string>"
              },
              "images": [
                {
                  "url": "<string>",
                  "alt": "<string>"
                }
              ],
              "optionGroups": [
                {}
              ],
              "price": {
                "amount": 123,
                "currency": "<string>",
                "formatted": "<string>"
              },
              "sourceUrl": "<string>",
              "url": "<string>"
            }
          ],
          "name": "<string>",
          "description": "<string>",
          "id": "<string>"
        }
      ],
      "confidence": 123,
      "currency": "<string>",
      "merchant": {
        "name": "<string>",
        "type": "<string>"
      },
      "sourceUrl": "<string>"
    },
    "metadata": {
      "<any other metadata> ": "<string>",
      "concurrencyLimited": true,
      "concurrencyQueueDurationMs": 123,
      "contentType": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123,
      "url": "<string>"
    },
    "product": {
      "title": "<string>",
      "url": "<string>",
      "variants": [
        {
          "availability": {
            "inStock": true,
            "text": "<string>"
          },
          "id": "<string>",
          "images": [
            {
              "url": "<string>",
              "alt": "<string>"
            }
          ],
          "price": {
            "amount": 123,
            "currency": "<string>",
            "formatted": "<string>"
          },
          "sale": {
            "originalPrice": {
              "amount": 123,
              "currency": "<string>",
              "formatted": "<string>"
            }
          },
          "sku": "<string>",
          "title": "<string>",
          "values": {}
        }
      ],
      "brand": "<string>",
      "category": "<string>",
      "description": "<string>"
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "summary": "<string>",
    "video": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "code": "UNKNOWN_ERROR",
  "error": "An unexpected error occurred on the server.",
  "success": false
}

インタラクション

ブラウザ操作 (クリック、入力、ナビゲーション、動的コンテンツの抽出) には、Interact endpoint を使用します。まずページをスクレイピングし、その後、自然言語の prompt または Playwright コードを使ってページ上でアクションを実行するために POST /v2/scrape/{scrapeId}/interact を呼び出します。詳細と例については、Interact documentationを参照してください。任意で actions パラメータを使用することもできますが、複雑なインタラクションには推奨されません。

Firecrawl API キーが必要な AI agent ですか？自動オンボーディング手順については、firecrawl.dev/agent-onboarding/SKILL.mdを参照してください。

承認

Authorization

string

header

必須

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

ボディ

application/json

url

string<uri>

必須

スクレイピング対象のURL

actions

コンテンツを取得する前にページに対して実行するアクション

Show child attributes

blockAds

boolean

デフォルト:true

広告およびCookie同意ポップアップのブロックを有効化します。

excludeTags

string[]

出力結果から除外するタグ。

formats

レスポンスに含める出力フォーマットを指定します。1つ以上のフォーマットを、文字列（例: 'markdown'）または追加オプションを含むオブジェクト（例: { type: 'json', schema: {...} }）として指定できます。一部のフォーマットでは、特定のオプションの設定が必須です。例: ['markdown', { type: 'json', schema: {...} }]。

Show child attributes

headers

object

リクエストに含めるヘッダー。Cookie や User-Agent などを送信するために使用できます。

includeTags

string[]

出力に含めるタグ。

location

object

リクエストのロケーション設定です。指定すると、利用可能な場合は適切なプロキシが使用され、対応する言語およびタイムゾーン設定がエミュレートされます。指定されていない場合は、デフォルトで「US」が使用されます。

Show child attributes

lockdown

boolean

デフォルト:false

true の場合、リクエストは Firecrawl のキャッシュからのみ返され、対象 URL への外部リクエストは一切行われません。これは、スクレイピングのリクエスト自体が機密情報を漏らす可能性がある、コンプライアンス要件の厳しい環境やエアギャップ環境向けに設計されています。キャッシュミス時には、エラーコード SCRAPE_LOCKDOWN_CACHE_MISS を伴う 404 を返します（ミス時に URL が記録されることはありません）。Lockdown リクエストはゼロデータ保持として扱われます。既存のキャッシュ済みページを引き続き利用対象にできるよう、デフォルトの maxAge は 2 年に延長されます。課金は、ヒット時が 5 クレジット、キャッシュミス時が 1 クレジットです。

maxAge

integer

デフォルト:172800000

ページのキャッシュが、この値（ミリ秒）で指定した有効期間より新しい場合は、そのキャッシュ版を返します。キャッシュがこの値より古い場合は、新たにページのスクレイピングを行います。極めて最新のデータが不要であれば、これを有効にすることでスクレイピングを最大500%高速化できます。デフォルトは2日です。

minAge

integer

設定すると、このリクエストはキャッシュのみを確認し、新しいスクレイプは実行されません。値はミリ秒単位で、キャッシュデータに必要な最小経過時間を指定します。一致するキャッシュデータが存在する場合は、即座に返されます。キャッシュデータが見つからない場合は、エラーコード SCRAPE_NO_CACHED_DATA を含む 404 が返されます。経過時間に関係なく、任意のキャッシュデータを許可するには 1 に設定します。

mobile

boolean

デフォルト:false

モバイル端末からのスクレイピングをエミュレートしたい場合は、true に設定します。レスポンシブページのテストやモバイル向けスクリーンショットの取得に便利です。

onlyCleanContent

boolean

デフォルト:false

ベータ版。生成された Markdown に対して追加の LLM ベースの処理を実行し、onlyMainContent では取りこぼす可能性のある残存ボイラープレート（Cookie バナー、広告ブロック、ソーシャル共有ウィジェット、パンくずリスト、ニュースレター登録、コメント欄、関連記事リスト）を削除します。見出し、リスト、表、コードブロック、画像参照、インラインリンクは保持されます。onlyMainContent と組み合わせて使うこともでき（これが最も一般的な構成です）、単独でも使用できます。Markdown がクリーニングモデルの出力トークン上限を超える場合は、警告を出してスキップされます（元の Markdown は保持されます）。ゼロデータ保持の request ではサポートされていません。

onlyMainContent

boolean

デフォルト:true

ヘッダー、ナビゲーション、フッターなどを除き、ページの主要なコンテンツのみを返します。これは Markdown 生成前に適用される、HTML レベルの決定論的なフィルターであり、LLM は関与しません。

parsers

object[]

スクレイピング時のファイルの処理方法を制御します。"pdf" が含まれている場合（デフォルト）、PDF の内容が抽出されて markdown 形式に変換され、課金はページ数に基づきます（1ページあたり1クレジット）。空の配列を渡した場合、PDF ファイルは base64 エンコード形式で返され、PDF 全体で一律1クレジットが請求されます。

Show child attributes

profile

object

スクレイピングおよび Interact セッション間で、永続的な browser ストレージを有効にします。スクレイピング時にプロファイルを指定すると、Cookie、localStorage、セッションデータが保持されます。同じプロファイル名のセッションでは、browser の状態が共有されます。

Show child attributes

proxy

enum<string>

デフォルト:auto

使用するプロキシの種類を指定します。

basic: ボット対策がない、または基本的なボット対策のみを行っているサイト向けのプロキシです。高速で、多くのケースではこれで十分です。
enhanced: 高度なボット対策を行っているサイト向けの強化プロキシです。basic よりは遅くなりますが、一部のサイトではより高い成功率が期待できます。1 リクエストあたり最大 5 クレジット消費します。
auto: basic プロキシでのスクレイピングに失敗した場合、Firecrawl が自動的に enhanced プロキシで再試行します。enhanced での再試行が成功した場合、そのスクレイプには 5 クレジットが課金されます。最初の basic で成功した場合は、通常のコストのみが課金されます。

利用可能なオプション:

basic,

enhanced,

auto

redactPII

デフォルト:false

返された markdown から個人を特定できる情報をマスキングします。デフォルト設定を使うには true を渡し、モード、エンティティ、置換スタイルを調整するにはオブジェクトを渡します。

removeBase64Images

boolean

デフォルト:true

markdown 出力からすべての Base64 画像を削除します。長くなりすぎる可能性があるためです。これは html または rawHtml フォーマットには影響しません。画像の代替テキストは出力に残りますが、URL はプレースホルダーに置き換えられます。

skipTlsVerification

boolean

デフォルト:true

リクエストを送信する際に TLS 証明書の検証を行わないようにします。

storeInCache

boolean

デフォルト:true

true の場合、そのページは Firecrawl のインデックスおよびキャッシュに保存されます。スクレイピング活動でデータ保護上の懸念が生じる可能性がある場合は、これを false に設定すると有用です。機密性の高いスクレイピングに関連する一部のパラメータ（例: actions、headers）を使用すると、このパラメータは強制的に false になります。

threatProtection

Threat Protection Override · object

このリクエスト単位の脅威保護オーバーライドです。指定したフィールドは、このリクエストに限り、組織のポリシー内の対応するフィールドを置き換えます。省略したフィールドには組織レベルの値がそのまま適用されます。利用するには、チームで脅威保護が有効になっている必要があります（エンタープライズ機能）。有効でない場合、リクエストは 403 で拒否されます。組織でリクエストごとのオーバーライドが無効になっている場合、このオブジェクトを含むリクエストはすべて 403 で拒否されます。チームに対して脅威保護が強制適用されている場合、mode に off は設定できません。

Show child attributes

timeout

integer

デフォルト:60000

リクエストのタイムアウト（ミリ秒）。最小値は1000（1秒）、デフォルト値は60000（60秒）、最大値は300000（300秒）です。

必須範囲: 1000 <= x <= 300000

waitFor

integer

デフォルト:0

コンテンツを取得する前に待機する時間をミリ秒単位で指定します。ページが十分に読み込まれるまでの時間を確保するための遅延です。この待機時間は、Firecrawl のスマート待機機能に加えて発生します。

zeroDataRetention

boolean

デフォルト:false

true の場合、このスクレイプではデータ保持が一切行われません。この機能を有効にするには、help@firecrawl.dev までご連絡ください。

レスポンス

成功時のレスポンス

data

object

Show child attributes

success

boolean

検索フィードバック

バッチスクレープ

​インタラクション

承認

ボディ

レスポンス

インタラクション