Extraction

Extraire des données structurées depuis des pages à l’aide de LLM

curl --request POST \
  --url https://api.firecrawl.dev/v1/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "ignoreInvalidURLs": false
}
'

{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

POST

extract

Extraire des données structurées depuis des pages à l’aide de LLM

curl --request POST \
  --url https://api.firecrawl.dev/v1/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "ignoreInvalidURLs": false
}
'

{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

Remarque : Une nouvelle version v2 de cette API est désormais disponible, avec des fonctionnalités améliorées et de meilleures performances.

Autorisations

Authorization

string

header

requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json

urls

string<uri>[]

requis

Les URL à partir desquelles extraire les données. Les URL doivent utiliser le format glob.

prompt

string

Prompt guidant le processus d’extraction

schema

object

Schéma qui définit la structure des données extraites. Doit être conforme à la spécification JSON Schema.

enableWebSearch

boolean

défaut:false

Lorsque la valeur est définie sur true, l’extraction utilisera la recherche sur le Web pour trouver des données supplémentaires

ignoreSitemap

boolean

défaut:false

Lorsque cette option est à true, les fichiers sitemap.xml sont ignorés lors de l’analyse du site web

includeSubdomains

boolean

défaut:true

Si activé, les sous-domaines des URL fournies seront également explorés

showSources

boolean

défaut:false

Lorsque cette option est définie sur true, les sources utilisées pour extraire les données seront incluses dans la réponse sous la clé sources.

scrapeOptions

object

Show child attributes

ignoreInvalidURLs

boolean

défaut:false

Si des URL non valides sont spécifiées dans le tableau urls, elles seront ignorées. Au lieu de faire échouer toute la requête, une extraction sera effectuée à partir des URL valides restantes, et les URL non valides seront renvoyées dans le champ invalidURLs de la réponse.

Réponse

Extraction réussie

success

boolean

string

invalidURLs

string[] | null

Si ignoreInvalidURLs est défini sur true, il s’agit d’un tableau contenant les URL invalides spécifiées dans la requête. S’il n’y a aucune URL invalide, ce sera un tableau vide. Si ignoreInvalidURLs est défini sur false, ce champ sera undefined.

Recherche

Obtenir le statut d'extraction

Utiliser l’API

Points de terminaison de scraping

Points de terminaison de crawl

Points de terminaison de cartographie

Points de terminaison de recherche

Points de terminaison d’extraction

Points de terminaison du compte

Autorisations

Corps

Réponse