Scrape

Récupérez le contenu d’une seule URL et, éventuellement, extrayez des informations à l’aide d’un LLM

curl --request POST \
  --url https://api.firecrawl.dev/v1/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2,
      "selector": "#my-element"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "jsonOptions": {
    "prompt": "<string>",
    "schema": {},
    "systemPrompt": "<string>"
  },
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "maxAge": 0,
  "mobile": false,
  "onlyMainContent": true,
  "parsePDF": true,
  "removeBase64Images": true,
  "skipTlsVerification": false,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 30000,
  "waitFor": 0,
  "changeTrackingOptions": {
    "modes": [],
    "prompt": "<string>",
    "schema": {},
    "tag": null
  },
  "formats": [
    "markdown"
  ],
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v1/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "type": "wait",
            "milliseconds": 2,
            "selector": "#my-element"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "headers": {},
    "includeTags": ["<string>"],
    "jsonOptions": {
        "prompt": "<string>",
        "schema": {},
        "systemPrompt": "<string>"
    },
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "maxAge": 0,
    "mobile": False,
    "onlyMainContent": True,
    "parsePDF": True,
    "removeBase64Images": True,
    "skipTlsVerification": False,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 30000,
    "waitFor": 0,
    "changeTrackingOptions": {
        "modes": [],
        "prompt": "<string>",
        "schema": {},
        "tag": None
    },
    "formats": ["markdown"],
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{type: 'wait', milliseconds: 2, selector: '#my-element'}],
    blockAds: true,
    excludeTags: ['<string>'],
    headers: {},
    includeTags: ['<string>'],
    jsonOptions: {prompt: '<string>', schema: {}, systemPrompt: '<string>'},
    location: {country: 'US', languages: ['en-US']},
    maxAge: 0,
    mobile: false,
    onlyMainContent: true,
    parsePDF: true,
    removeBase64Images: true,
    skipTlsVerification: false,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 30000,
    waitFor: 0,
    changeTrackingOptions: {modes: [], prompt: '<string>', schema: {}, tag: null},
    formats: ['markdown'],
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v1/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v1/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'type' => 'wait',
                'milliseconds' => 2,
                'selector' => '#my-element'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'jsonOptions' => [
        'prompt' => '<string>',
        'schema' => [
                
        ],
        'systemPrompt' => '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'maxAge' => 0,
    'mobile' => false,
    'onlyMainContent' => true,
    'parsePDF' => true,
    'removeBase64Images' => true,
    'skipTlsVerification' => false,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 30000,
    'waitFor' => 0,
    'changeTrackingOptions' => [
        'modes' => [
                
        ],
        'prompt' => '<string>',
        'schema' => [
                
        ],
        'tag' => null
    ],
    'formats' => [
        'markdown'
    ],
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v1/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"type\": \"wait\",\n      \"milliseconds\": 2,\n      \"selector\": \"#my-element\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"jsonOptions\": {\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"systemPrompt\": \"<string>\"\n  },\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"maxAge\": 0,\n  \"mobile\": false,\n  \"onlyMainContent\": true,\n  \"parsePDF\": true,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": false,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 30000,\n  \"waitFor\": 0,\n  \"changeTrackingOptions\": {\n    \"modes\": [],\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"tag\": null\n  },\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v1/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"type\": \"wait\",\n      \"milliseconds\": 2,\n      \"selector\": \"#my-element\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"jsonOptions\": {\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"systemPrompt\": \"<string>\"\n  },\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"maxAge\": 0,\n  \"mobile\": false,\n  \"onlyMainContent\": true,\n  \"parsePDF\": true,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": false,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 30000,\n  \"waitFor\": 0,\n  \"changeTrackingOptions\": {\n    \"modes\": [],\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"tag\": null\n  },\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v1/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"type\": \"wait\",\n      \"milliseconds\": 2,\n      \"selector\": \"#my-element\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"jsonOptions\": {\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"systemPrompt\": \"<string>\"\n  },\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"maxAge\": 0,\n  \"mobile\": false,\n  \"onlyMainContent\": true,\n  \"parsePDF\": true,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": false,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 30000,\n  \"waitFor\": 0,\n  \"changeTrackingOptions\": {\n    \"modes\": [],\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"tag\": null\n  },\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "llm_extraction": {},
    "markdown": "<string>",
    "metadata": {
      "<any other metadata> ": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "error": "An unexpected error occurred on the server."
}

POST

scrape

Récupérez le contenu d’une seule URL et, éventuellement, extrayez des informations à l’aide d’un LLM

curl --request POST \
  --url https://api.firecrawl.dev/v1/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2,
      "selector": "#my-element"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "jsonOptions": {
    "prompt": "<string>",
    "schema": {},
    "systemPrompt": "<string>"
  },
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "maxAge": 0,
  "mobile": false,
  "onlyMainContent": true,
  "parsePDF": true,
  "removeBase64Images": true,
  "skipTlsVerification": false,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 30000,
  "waitFor": 0,
  "changeTrackingOptions": {
    "modes": [],
    "prompt": "<string>",
    "schema": {},
    "tag": null
  },
  "formats": [
    "markdown"
  ],
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v1/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "type": "wait",
            "milliseconds": 2,
            "selector": "#my-element"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "headers": {},
    "includeTags": ["<string>"],
    "jsonOptions": {
        "prompt": "<string>",
        "schema": {},
        "systemPrompt": "<string>"
    },
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "maxAge": 0,
    "mobile": False,
    "onlyMainContent": True,
    "parsePDF": True,
    "removeBase64Images": True,
    "skipTlsVerification": False,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 30000,
    "waitFor": 0,
    "changeTrackingOptions": {
        "modes": [],
        "prompt": "<string>",
        "schema": {},
        "tag": None
    },
    "formats": ["markdown"],
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{type: 'wait', milliseconds: 2, selector: '#my-element'}],
    blockAds: true,
    excludeTags: ['<string>'],
    headers: {},
    includeTags: ['<string>'],
    jsonOptions: {prompt: '<string>', schema: {}, systemPrompt: '<string>'},
    location: {country: 'US', languages: ['en-US']},
    maxAge: 0,
    mobile: false,
    onlyMainContent: true,
    parsePDF: true,
    removeBase64Images: true,
    skipTlsVerification: false,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 30000,
    waitFor: 0,
    changeTrackingOptions: {modes: [], prompt: '<string>', schema: {}, tag: null},
    formats: ['markdown'],
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v1/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v1/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'type' => 'wait',
                'milliseconds' => 2,
                'selector' => '#my-element'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'jsonOptions' => [
        'prompt' => '<string>',
        'schema' => [
                
        ],
        'systemPrompt' => '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'maxAge' => 0,
    'mobile' => false,
    'onlyMainContent' => true,
    'parsePDF' => true,
    'removeBase64Images' => true,
    'skipTlsVerification' => false,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 30000,
    'waitFor' => 0,
    'changeTrackingOptions' => [
        'modes' => [
                
        ],
        'prompt' => '<string>',
        'schema' => [
                
        ],
        'tag' => null
    ],
    'formats' => [
        'markdown'
    ],
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v1/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"type\": \"wait\",\n      \"milliseconds\": 2,\n      \"selector\": \"#my-element\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"jsonOptions\": {\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"systemPrompt\": \"<string>\"\n  },\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"maxAge\": 0,\n  \"mobile\": false,\n  \"onlyMainContent\": true,\n  \"parsePDF\": true,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": false,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 30000,\n  \"waitFor\": 0,\n  \"changeTrackingOptions\": {\n    \"modes\": [],\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"tag\": null\n  },\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v1/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"type\": \"wait\",\n      \"milliseconds\": 2,\n      \"selector\": \"#my-element\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"jsonOptions\": {\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"systemPrompt\": \"<string>\"\n  },\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"maxAge\": 0,\n  \"mobile\": false,\n  \"onlyMainContent\": true,\n  \"parsePDF\": true,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": false,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 30000,\n  \"waitFor\": 0,\n  \"changeTrackingOptions\": {\n    \"modes\": [],\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"tag\": null\n  },\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v1/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"type\": \"wait\",\n      \"milliseconds\": 2,\n      \"selector\": \"#my-element\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"jsonOptions\": {\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"systemPrompt\": \"<string>\"\n  },\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"maxAge\": 0,\n  \"mobile\": false,\n  \"onlyMainContent\": true,\n  \"parsePDF\": true,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": false,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 30000,\n  \"waitFor\": 0,\n  \"changeTrackingOptions\": {\n    \"modes\": [],\n    \"prompt\": \"<string>\",\n    \"schema\": {},\n    \"tag\": null\n  },\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "llm_extraction": {},
    "markdown": "<string>",
    "metadata": {
      "<any other metadata> ": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "error": "An unexpected error occurred on the server."
}

Remarque : une nouvelle version v2 de cette API est désormais disponible avec des fonctionnalités et des performances améliorées.

Autorisations

Authorization

string

header

requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json

url

string<uri>

requis

L’URL à explorer

actions

Actions à effectuer sur la page avant de récupérer le contenu

Show child attributes

blockAds

boolean

défaut:true

Active le blocage des publicités et des bannières de cookies.

excludeTags

string[]

Balises à exclure du résultat.

headers

object

En-têtes à envoyer avec la requête. Peuvent servir à envoyer des cookies, l’en-tête User-Agent, etc.

includeTags

string[]

Balises à inclure dans la sortie.

jsonOptions

object

Objet JSON d’options

Show child attributes

location

object

Paramètre de localisation de la requête. Lorsqu’il est spécifié, un proxy approprié est utilisé si disponible et la langue ainsi que le fuseau horaire correspondants sont émulés. Par défaut, « US » est utilisé si aucun paramètre n’est spécifié.

Show child attributes

maxAge

integer

défaut:0

Renvoie une version mise en cache de la page si elle a moins que cette ancienneté (en millisecondes). Si une version mise en cache de la page est plus ancienne que cette valeur, la page sera à nouveau scrapée. Si vous n’avez pas besoin de données extrêmement récentes, activer cette option peut accélérer vos opérations de scraping jusqu’à 500 %. La valeur par défaut est 0, ce qui désactive la mise en cache.

mobile

boolean

défaut:false

Mettez cette option à true si vous souhaitez simuler le scraping depuis un appareil mobile. Utile pour tester les pages responsive et prendre des captures d’écran mobiles.

onlyMainContent

boolean

défaut:true

Renvoyer uniquement le contenu principal de la page, en excluant les en-têtes, éléments de navigation, pieds de page, etc.

parsePDF

boolean

défaut:true

Contrôle la façon dont les fichiers PDF sont traités lors du scraping. Lorsque cette option est activée (true), le contenu du PDF est extrait et converti au format markdown, avec une facturation basée sur le nombre de pages (1 crédit par page). Lorsque cette option est désactivée (false), le fichier PDF est renvoyé sous forme de base64 avec un tarif forfaitaire de 1 crédit au total.

proxy

enum<string>

Spécifie le type de proxy à utiliser.

basic�a0: Proxys pour le scraping de sites sans protection anti-bot ou avec des protections basiques. Rapide et généralement fiable.
enhanced�a0: Proxys avancés pour le scraping de sites avec des solutions anti-bot sophistiquées. Plus lents, mais plus fiables sur certains sites. Coût pouvant aller jusqu’à 5 crédits par requête.
auto�a0: Firecrawl réessaie automatiquement le scraping avec des proxys enhanced si le proxy basic échoue. Si le nouvel essai avec enhanced réussit, 5 crédits seront facturés pour l’opération de scraping. Si la première tentative avec basic réussit, seul le coût normal sera facturé.

Si vous ne spécifiez pas de proxy, Firecrawl utilisera basic par défaut.

Options disponibles:

basic,

enhanced,

auto

removeBase64Images

boolean

défaut:true

Supprime toutes les images encodées en base64 de la sortie, qui peuvent être extrêmement longues. Le texte alternatif de l’image est conservé dans la sortie, mais l’URL est remplacée par un placeholder.

skipTlsVerification

boolean

défaut:false

Ignorer la vérification des certificats TLS lors de l’envoi de requêtes

storeInCache

boolean

défaut:true

Si ce paramètre est défini sur true, la page sera stockée dans l’index et le cache de Firecrawl. Le définir sur false est utile si votre activité de scraping peut soulever des enjeux de protection des données. L’utilisation de certains paramètres associés à un scraping sensible (actions, en-têtes) forcera ce paramètre à false.

threatProtection

Threat Protection Override · object

Dérogation par requête à la Protection contre les menaces. Les champs que vous fournissez remplacent les champs correspondants de la politique de votre organisation pour cette requête uniquement ; les champs omis conservent leurs valeurs définies au niveau de l’organisation. La Protection contre les menaces doit être activée pour votre équipe (fonctionnalité Enterprise) — sinon, la requête est rejetée avec un code 403. Si votre organisation a désactivé les dérogations par requête, toute requête incluant cet objet est rejetée avec un code 403. Si la Protection contre les menaces est imposée pour votre équipe, mode ne peut pas être défini sur off.

Show child attributes

timeout

integer

défaut:30000

Délai d'attente de la requête en millisecondes

waitFor

integer

défaut:0

Spécifiez un délai, en millisecondes, avant de récupérer le contenu, afin de laisser à la page suffisamment de temps pour se charger.

changeTrackingOptions

object

Options de suivi des modifications (bêta). Applicable uniquement lorsque « changeTracking » est inclus dans les formats. Le format « markdown » doit également être spécifié lors de l’utilisation du suivi des modifications.

Show child attributes

formats

enum<string>[]

Formats à inclure dans le résultat.

Options disponibles:

markdown,

html,

rawHtml,

links,

screenshot,

screenshot@fullPage,

json,

changeTracking

zeroDataRetention

boolean

défaut:false

Si cette valeur est définie sur true, cela activera l’absence de conservation des données pour cette opération de scraping. Pour activer cette fonctionnalité, veuillez contacter help@firecrawl.dev

Réponse

Réponse réussie

data

object

Show child attributes

success

boolean

Introduction

Scraping par lot

Utiliser l’API

Points de terminaison de scraping

Points de terminaison de crawl

Points de terminaison de cartographie

Points de terminaison de recherche

Points de terminaison d’extraction

Points de terminaison du compte

Autorisations

Corps

Réponse