Extraction

Extraire des données structurées à partir de pages grâce aux LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "formats": [
      "markdown"
    ],
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 172800000,
    "minAge": 123,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": true,
    "timeout": 30000,
    "parsers": [
      "pdf"
    ],
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "auto",
    "storeInCache": true
  },
  "ignoreInvalidURLs": true
}
'

{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

POST

extract

Extraire des données structurées à partir de pages grâce aux LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "formats": [
      "markdown"
    ],
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 172800000,
    "minAge": 123,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": true,
    "timeout": 30000,
    "parsers": [
      "pdf"
    ],
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "auto",
    "storeInCache": true
  },
  "ignoreInvalidURLs": true
}
'

{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

Autorisations

Authorization

string

header

requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json

urls

string<uri>[]

requis

Les URL à partir desquelles extraire les données. Les URL doivent être au format glob.

prompt

string

Prompt pour orienter le processus d’extraction

schema

object

Schéma définissant la structure des données extraites. Doit être conforme à JSON Schema.

enableWebSearch

boolean

défaut:false

Lorsque ce paramètre est défini sur true, l’extraction utilisera la recherche web pour trouver des données supplémentaires

ignoreSitemap

boolean

défaut:false

Lorsque cette option est activée, les fichiers sitemap.xml sont ignorés lors de l’analyse du site web

includeSubdomains

boolean

défaut:true

Lorsque cette option est activée, les sous-domaines des URL fournies sont également analysés

showSources

boolean

défaut:false

Lorsque la valeur est true, les sources utilisées pour extraire les données sont incluses dans la réponse sous la clé sources.

scrapeOptions

object

Show child attributes

ignoreInvalidURLs

boolean

défaut:true

Si des URL invalides sont spécifiées dans le tableau urls, elles seront ignorées. Plutôt que de faire échouer l’intégralité de la requête, une extraction sera effectuée en utilisant les URL valides restantes, et les URL invalides seront renvoyées dans le champ invalidURLs de la réponse.

Réponse

Extraction réussie

success

boolean

string

invalidURLs

string[] | null

Si ignoreInvalidURLs vaut true, ce champ est un tableau contenant les URL non valides qui ont été spécifiées dans la requête. S’il n’y a aucune URL non valide, ce sera un tableau vide. Si ignoreInvalidURLs vaut false, ce champ sera undefined.

Annuler l’agent

Obtenir l'état de l'extraction

Utilisation de l’API

Points de terminaison pour le scraping

Points de terminaison pour la recherche

Points de terminaison pour la cartographie

Points de terminaison pour l’exploration

Points de terminaison pour le navigateur

Points de terminaison pour les agents

Points de terminaison pour l’extraction

Points de terminaison pour le compte

Charges utiles des webhooks

Autorisations

Corps

Réponse