Scrape

Récupérer le contenu d’une URL et éventuellement en extraire des informations à l’aide d’un LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "milliseconds": 2,
      "type": "wait"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "formats": [
    "markdown"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "lockdown": false,
  "maxAge": 172800000,
  "minAge": 123,
  "mobile": false,
  "onlyCleanContent": false,
  "onlyMainContent": true,
  "parsers": [
    "pdf"
  ],
  "proxy": "auto",
  "redactPII": false,
  "removeBase64Images": true,
  "skipTlsVerification": true,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 60000,
  "waitFor": 0,
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v2/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "milliseconds": 2,
            "type": "wait"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "formats": ["markdown"],
    "headers": {},
    "includeTags": ["<string>"],
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "lockdown": False,
    "maxAge": 172800000,
    "minAge": 123,
    "mobile": False,
    "onlyCleanContent": False,
    "onlyMainContent": True,
    "parsers": ["pdf"],
    "proxy": "auto",
    "redactPII": False,
    "removeBase64Images": True,
    "skipTlsVerification": True,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 60000,
    "waitFor": 0,
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{milliseconds: 2, type: 'wait'}],
    blockAds: true,
    excludeTags: ['<string>'],
    formats: ['markdown'],
    headers: {},
    includeTags: ['<string>'],
    location: {country: 'US', languages: ['en-US']},
    lockdown: false,
    maxAge: 172800000,
    minAge: 123,
    mobile: false,
    onlyCleanContent: false,
    onlyMainContent: true,
    parsers: ['pdf'],
    proxy: 'auto',
    redactPII: false,
    removeBase64Images: true,
    skipTlsVerification: true,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 60000,
    waitFor: 0,
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v2/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v2/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'milliseconds' => 2,
                'type' => 'wait'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'formats' => [
        'markdown'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'lockdown' => false,
    'maxAge' => 172800000,
    'minAge' => 123,
    'mobile' => false,
    'onlyCleanContent' => false,
    'onlyMainContent' => true,
    'parsers' => [
        'pdf'
    ],
    'proxy' => 'auto',
    'redactPII' => false,
    'removeBase64Images' => true,
    'skipTlsVerification' => true,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 60000,
    'waitFor' => 0,
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v2/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v2/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v2/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "answer": "<string>",
    "audio": "<string>",
    "branding": {
      "animations": {},
      "colors": {
        "accent": "<string>",
        "background": "<string>",
        "error": "<string>",
        "link": "<string>",
        "primary": "<string>",
        "secondary": "<string>",
        "success": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "warning": "<string>"
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "input": {}
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "icons": {},
      "images": {
        "favicon": "<string>",
        "logo": "<string>",
        "ogImage": "<string>"
      },
      "layout": {},
      "logo": "<string>",
      "personality": {},
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "margins": {},
        "padding": {}
      },
      "typography": {
        "fontFamilies": {
          "code": "<string>",
          "heading": "<string>",
          "primary": "<string>"
        },
        "fontSizes": {
          "body": "<string>",
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>"
        },
        "fontWeights": {
          "bold": 123,
          "light": 123,
          "medium": 123,
          "regular": 123
        },
        "lineHeights": {
          "body": "<string>",
          "heading": "<string>"
        }
      }
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "highlights": "<string>",
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "markdown": "<string>",
    "menu": {
      "isMenu": true,
      "sections": [
        {
          "items": [
            {
              "name": "<string>",
              "availability": {
                "inStock": true,
                "text": "<string>"
              },
              "calories": 123,
              "description": "<string>",
              "dietary": [
                "<string>"
              ],
              "id": "<string>",
              "identifiers": {
                "merchantItemId": "<string>"
              },
              "images": [
                {
                  "url": "<string>",
                  "alt": "<string>"
                }
              ],
              "optionGroups": [
                {}
              ],
              "price": {
                "amount": 123,
                "currency": "<string>",
                "formatted": "<string>"
              },
              "sourceUrl": "<string>",
              "url": "<string>"
            }
          ],
          "name": "<string>",
          "description": "<string>",
          "id": "<string>"
        }
      ],
      "confidence": 123,
      "currency": "<string>",
      "merchant": {
        "name": "<string>",
        "type": "<string>"
      },
      "sourceUrl": "<string>"
    },
    "metadata": {
      "<any other metadata> ": "<string>",
      "concurrencyLimited": true,
      "concurrencyQueueDurationMs": 123,
      "contentType": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123,
      "url": "<string>"
    },
    "product": {
      "title": "<string>",
      "url": "<string>",
      "variants": [
        {
          "availability": {
            "inStock": true,
            "text": "<string>"
          },
          "id": "<string>",
          "images": [
            {
              "url": "<string>",
              "alt": "<string>"
            }
          ],
          "price": {
            "amount": 123,
            "currency": "<string>",
            "formatted": "<string>"
          },
          "sale": {
            "originalPrice": {
              "amount": 123,
              "currency": "<string>",
              "formatted": "<string>"
            }
          },
          "sku": "<string>",
          "title": "<string>",
          "values": {}
        }
      ],
      "brand": "<string>",
      "category": "<string>",
      "description": "<string>"
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "summary": "<string>",
    "video": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "code": "UNKNOWN_ERROR",
  "error": "An unexpected error occurred on the server.",
  "success": false
}

POST

scrape

Récupérer le contenu d’une URL et éventuellement en extraire des informations à l’aide d’un LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "milliseconds": 2,
      "type": "wait"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "formats": [
    "markdown"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "lockdown": false,
  "maxAge": 172800000,
  "minAge": 123,
  "mobile": false,
  "onlyCleanContent": false,
  "onlyMainContent": true,
  "parsers": [
    "pdf"
  ],
  "proxy": "auto",
  "redactPII": false,
  "removeBase64Images": true,
  "skipTlsVerification": true,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 60000,
  "waitFor": 0,
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v2/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "milliseconds": 2,
            "type": "wait"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "formats": ["markdown"],
    "headers": {},
    "includeTags": ["<string>"],
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "lockdown": False,
    "maxAge": 172800000,
    "minAge": 123,
    "mobile": False,
    "onlyCleanContent": False,
    "onlyMainContent": True,
    "parsers": ["pdf"],
    "proxy": "auto",
    "redactPII": False,
    "removeBase64Images": True,
    "skipTlsVerification": True,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 60000,
    "waitFor": 0,
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{milliseconds: 2, type: 'wait'}],
    blockAds: true,
    excludeTags: ['<string>'],
    formats: ['markdown'],
    headers: {},
    includeTags: ['<string>'],
    location: {country: 'US', languages: ['en-US']},
    lockdown: false,
    maxAge: 172800000,
    minAge: 123,
    mobile: false,
    onlyCleanContent: false,
    onlyMainContent: true,
    parsers: ['pdf'],
    proxy: 'auto',
    redactPII: false,
    removeBase64Images: true,
    skipTlsVerification: true,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 60000,
    waitFor: 0,
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v2/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v2/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'milliseconds' => 2,
                'type' => 'wait'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'formats' => [
        'markdown'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'lockdown' => false,
    'maxAge' => 172800000,
    'minAge' => 123,
    'mobile' => false,
    'onlyCleanContent' => false,
    'onlyMainContent' => true,
    'parsers' => [
        'pdf'
    ],
    'proxy' => 'auto',
    'redactPII' => false,
    'removeBase64Images' => true,
    'skipTlsVerification' => true,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 60000,
    'waitFor' => 0,
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v2/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v2/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v2/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "answer": "<string>",
    "audio": "<string>",
    "branding": {
      "animations": {},
      "colors": {
        "accent": "<string>",
        "background": "<string>",
        "error": "<string>",
        "link": "<string>",
        "primary": "<string>",
        "secondary": "<string>",
        "success": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "warning": "<string>"
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "input": {}
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "icons": {},
      "images": {
        "favicon": "<string>",
        "logo": "<string>",
        "ogImage": "<string>"
      },
      "layout": {},
      "logo": "<string>",
      "personality": {},
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "margins": {},
        "padding": {}
      },
      "typography": {
        "fontFamilies": {
          "code": "<string>",
          "heading": "<string>",
          "primary": "<string>"
        },
        "fontSizes": {
          "body": "<string>",
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>"
        },
        "fontWeights": {
          "bold": 123,
          "light": 123,
          "medium": 123,
          "regular": 123
        },
        "lineHeights": {
          "body": "<string>",
          "heading": "<string>"
        }
      }
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "highlights": "<string>",
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "markdown": "<string>",
    "menu": {
      "isMenu": true,
      "sections": [
        {
          "items": [
            {
              "name": "<string>",
              "availability": {
                "inStock": true,
                "text": "<string>"
              },
              "calories": 123,
              "description": "<string>",
              "dietary": [
                "<string>"
              ],
              "id": "<string>",
              "identifiers": {
                "merchantItemId": "<string>"
              },
              "images": [
                {
                  "url": "<string>",
                  "alt": "<string>"
                }
              ],
              "optionGroups": [
                {}
              ],
              "price": {
                "amount": 123,
                "currency": "<string>",
                "formatted": "<string>"
              },
              "sourceUrl": "<string>",
              "url": "<string>"
            }
          ],
          "name": "<string>",
          "description": "<string>",
          "id": "<string>"
        }
      ],
      "confidence": 123,
      "currency": "<string>",
      "merchant": {
        "name": "<string>",
        "type": "<string>"
      },
      "sourceUrl": "<string>"
    },
    "metadata": {
      "<any other metadata> ": "<string>",
      "concurrencyLimited": true,
      "concurrencyQueueDurationMs": 123,
      "contentType": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123,
      "url": "<string>"
    },
    "product": {
      "title": "<string>",
      "url": "<string>",
      "variants": [
        {
          "availability": {
            "inStock": true,
            "text": "<string>"
          },
          "id": "<string>",
          "images": [
            {
              "url": "<string>",
              "alt": "<string>"
            }
          ],
          "price": {
            "amount": 123,
            "currency": "<string>",
            "formatted": "<string>"
          },
          "sale": {
            "originalPrice": {
              "amount": 123,
              "currency": "<string>",
              "formatted": "<string>"
            }
          },
          "sku": "<string>",
          "title": "<string>",
          "values": {}
        }
      ],
      "brand": "<string>",
      "category": "<string>",
      "description": "<string>"
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "summary": "<string>",
    "video": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "code": "UNKNOWN_ERROR",
  "error": "An unexpected error occurred on the server.",
  "success": false
}

Interactions

Pour les interactions avec le navigateur (clic, saisie, navigation, extraction de contenu dynamique), utilisez le point de terminaison Interact. Effectuez d’abord le scrape d’une page, puis appelez POST /v2/scrape/{scrapeId}/interact avec un prompt en langage naturel ou du code Playwright pour effectuer des actions sur la page. Consultez la documentation Interact pour tous les détails et des exemples. Vous pouvez aussi utiliser le paramètre actions, mais son usage n’est pas recommandé pour des interactions complexes.

Êtes-vous un agent IA ayant besoin d’une clé API Firecrawl ? Consultez firecrawl.dev/agent-onboarding/SKILL.md pour obtenir des instructions d’intégration automatisée.

Autorisations

Authorization

string

header

requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json

url

string<uri>

requis

L’URL à scraper

actions

Actions à effectuer sur la page avant de récupérer le contenu

Show child attributes

auditMetadata

object

Informations d’attribution de l’utilisateur incluses dans les événements de journalisation SIEM lorsque SIEM Logging est activé pour l’organisation.

Show child attributes

blockAds

boolean

défaut:true

Active le blocage des publicités et des fenêtres contextuelles de cookies.

excludeTags

string[]

Balises à exclure du résultat.

formats

Formats de sortie à inclure dans la réponse. Vous pouvez spécifier un ou plusieurs formats, soit sous forme de chaînes (par ex. 'markdown'), soit sous forme d’objets avec des options supplémentaires (par ex. { type: 'json', schema: {...} }). Certains formats requièrent la définition d’options spécifiques. Exemple : ['markdown', { type: 'json', schema: {...} }].

Show child attributes

headers

object

En-têtes à inclure dans la requête. Peuvent être utilisés pour envoyer des cookies, un user-agent, etc.

includeTags

string[]

Balises à inclure dans le résultat.

location

object

Paramètres de localisation pour la requête. Lorsqu’ils sont définis, un proxy approprié sera utilisé si disponible et les paramètres de langue et de fuseau horaire correspondants seront simulés. La valeur par défaut est « US » si aucun n’est spécifié.

Show child attributes

lockdown

boolean

défaut:false

Si défini sur true, la requête est traitée uniquement à partir du cache de Firecrawl et n’effectue jamais de requête sortante vers l’URL cible. Conçu pour les environnements soumis à des contraintes de conformité ou isolés du réseau, où la requête de scrape elle-même pourrait divulguer des informations sensibles. En cas d’absence dans le cache, renvoie une 404 avec le code d’erreur SCRAPE_LOCKDOWN_CACHE_MISS (l’URL n’est jamais journalisée en cas d’absence dans le cache). Les requêtes Lockdown sont traitées en mode zero data retention. La valeur maxAge par défaut est portée à 2 ans afin que les pages déjà mises en cache restent éligibles. Facturé 5 crédits en cas de hit, 1 crédit en cas d’absence dans le cache.

maxAge

integer

défaut:172800000

Retourne une version mise en cache de la page si elle est plus récente que cette durée (en millisecondes). Si une version mise en cache de la page est plus ancienne que cette valeur, la page sera à nouveau explorée (scrapée). Si vous n’avez pas besoin de données extrêmement récentes, activer cette option peut accélérer vos opérations de scraping de 500 %. Par défaut : 2 jours.

minAge

integer

Lorsqu’elle est définie, la requête vérifie uniquement le cache et ne déclenche jamais une nouvelle opération de scraping. La valeur est exprimée en millisecondes et indique l’âge minimal que doivent avoir les données en cache. Si des données en cache correspondantes existent, elles sont renvoyées instantanément. Si aucune donnée en cache n’est trouvée, une réponse 404 avec le code d’erreur SCRAPE_NO_CACHED_DATA est renvoyée. Définissez-la sur 1 pour accepter n’importe quelle donnée en cache, quel que soit son âge.

mobile

boolean

défaut:false

Définissez cette option sur true pour simuler le scraping depuis un appareil mobile. Utile pour tester des pages responsives et prendre des captures d’écran en mode mobile.

onlyCleanContent

boolean

défaut:false

Bêta. Exécute un passage supplémentaire basé sur un LLM sur le markdown généré afin de supprimer les éléments parasites résiduels que onlyMainContent peut manquer (bannières de cookies, blocs publicitaires, widgets de partage sur les réseaux sociaux, fils d’Ariane, inscriptions à la newsletter, sections de commentaires, listes d’articles similaires). Les titres, listes, tableaux, blocs de code, références d’images et liens intégrés sont conservés. Peut être combiné avec onlyMainContent (la configuration la plus courante) ou utilisé seul. Ignoré avec un avertissement lorsque le markdown dépasse la limite de jetons de sortie du modèle de nettoyage (le markdown d’origine est conservé). Non pris en charge pour les requêtes sans conservation des données.

onlyMainContent

boolean

défaut:true

Retourne uniquement le contenu principal de la page, à l’exclusion des en-têtes, menus de navigation, pieds de page, etc. Il s’agit d’un filtre déterministe appliqué au niveau HTML avant la génération du markdown ; aucun LLM n’intervient.

parsers

object[]

Contrôle la façon dont les fichiers sont traités lors du scraping. Lorsque « pdf » est inclus (valeur par défaut), le contenu du PDF est extrait et converti au format Markdown, avec une facturation basée sur le nombre de pages (1 crédit par page). Lorsqu’un tableau vide est envoyé, le fichier PDF est renvoyé en encodage base64 avec un tarif fixe de 1 crédit pour l’ensemble du PDF.

Show child attributes

profile

object

Active le stockage persistant du navigateur entre les sessions de scrape et d’Interact. Transmettez un profil lors du scraping pour conserver les cookies, le localStorage et les données de session. Les sessions portant le même nom de profil partagent l’état du navigateur.

Show child attributes

proxy

enum<string>

défaut:auto

Spécifie le type de proxy à utiliser.

basic : Proxies pour le scraping de sites avec des solutions anti‑bots inexistantes ou basiques. Rapides et généralement efficaces.
enhanced : Proxies renforcés pour le scraping de sites avec des solutions anti‑bots avancées. Plus lents, mais plus fiables sur certains sites. Peut coûter jusqu’à 5 crédits par requête.
auto : Firecrawl réessaiera automatiquement le scraping avec des proxies renforcés si le proxy basic échoue. Si la nouvelle tentative avec le proxy renforcé réussit, 5 crédits seront facturés pour l’opération de scraping. Si la première tentative avec le proxy basic réussit, seul le coût standard sera facturé.

Options disponibles:

basic,

enhanced,

auto

redactPII

défaut:false

Masquez les données personnelles identifiables dans le markdown renvoyé. Passez true pour utiliser les valeurs par défaut, ou un objet pour ajuster le mode, les entités et le style de remplacement.

removeBase64Images

boolean

défaut:true

<[ { "key": "0", "translation": "Supprime toutes les images encodées en base64 de la sortie markdown, qui peut devenir excessivement longue. Cela n’affecte pas les formats html ou rawHtml. Le texte alternatif de l’image reste dans la sortie, mais l’URL est remplacée par un espace réservé." } ]</>

skipTlsVerification

boolean

défaut:true

Ignorer la vérification du certificat TLS lors des requêtes.

storeInCache

boolean

défaut:true

Si ce paramètre est défini sur true, la page sera stockée dans l’index et le cache de Firecrawl. Le définir sur false est utile si votre activité de scraping peut soulever des problèmes de protection des données. L’utilisation de certains paramètres associés à un scraping sensible (par ex. actions, headers) forcera ce paramètre à false.

threatProtection

Threat Protection Override · object

Dérogation Protection contre les menaces au niveau de la requête. Les champs que vous fournissez remplacent les champs correspondants de la politique de votre organisation pour cette requête uniquement ; les champs omis conservent leurs valeurs définies au niveau de l'organisation. La Protection contre les menaces doit être activée pour votre équipe (fonctionnalité Enterprise) ; sinon, la requête est rejetée avec un code 403. Si votre organisation a désactivé les dérogations par requête, toute requête qui inclut cet objet est rejetée avec un code 403. Si la Protection contre les menaces est appliquée à votre équipe, mode ne peut pas être défini sur off.

Show child attributes

timeout

integer

défaut:60000

Délai d’expiration de la requête en millisecondes. La valeur minimale est de 1000 (1 seconde). La valeur par défaut est de 60000 (60 secondes). La valeur maximale est de 300000 (300 secondes).

Plage requise: 1000 <= x <= 300000

waitFor

integer

défaut:0

Indiquez un délai en millisecondes avant de récupérer le contenu, afin de laisser à la page suffisamment de temps pour se charger. Ce temps d’attente s’ajoute à la fonction d’attente intelligente de Firecrawl.

zeroDataRetention

boolean

défaut:false

Si la valeur est true, cela activera la non-conservation totale des données pour ce scraping. Pour activer cette fonctionnalité, veuillez contacter help@firecrawl.dev

Réponse

Réponse réussie

data

object

Show child attributes

success

boolean

Retour sur la recherche

Scrape par lot

Utilisation de l’API

Points de terminaison de recherche

Points de terminaison de Scrape

Points de terminaison d’Interact

Points de terminaison de Research Index

Points de terminaison de cartographie

Points de terminaison de Parse

Points de terminaison de crawl

Points de terminaison de Monitor

Points de terminaison de retours

Points de terminaison de débogage agentique

Points de terminaison du compte

Charges utiles des webhooks

Intégration partenaire

Interactions

Autorisations

Corps

Réponse

​Interactions

Autorisations

Corps

Réponse

Interactions