Passer au contenu principal
POST
/
extract
Extraire des données structurées à partir de pages grâce aux LLM
curl --request POST \
  --url https://api.firecrawl.dev/v2/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "formats": [
      "markdown"
    ],
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 172800000,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": true,
    "timeout": 123,
    "parsers": [
      "pdf"
    ],
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "auto",
    "storeInCache": true
  },
  "ignoreInvalidURLs": true
}
'
{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

Autorisations

Authorization
string
header
requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json
urls
string<uri>[]
requis

Les URL à partir desquelles extraire les données. Les URL doivent être au format glob.

prompt
string

Prompt pour orienter le processus d’extraction

schema
object

Schéma définissant la structure des données extraites. Doit être conforme à JSON Schema.

Lorsque ce paramètre est défini sur true, l’extraction utilisera la recherche web pour trouver des données supplémentaires

ignoreSitemap
boolean
défaut:false

Lorsque cette option est activée, les fichiers sitemap.xml sont ignorés lors de l’analyse du site web

includeSubdomains
boolean
défaut:true

Lorsque cette option est activée, les sous-domaines des URL fournies sont également analysés

showSources
boolean
défaut:false

Lorsque la valeur est true, les sources utilisées pour extraire les données sont incluses dans la réponse sous la clé sources.

scrapeOptions
object
ignoreInvalidURLs
boolean
défaut:true

Si des URL invalides sont spécifiées dans le tableau urls, elles seront ignorées. Plutôt que de faire échouer l’intégralité de la requête, une extraction sera effectuée en utilisant les URL valides restantes, et les URL invalides seront renvoyées dans le champ invalidURLs de la réponse.

Réponse

Extraction réussie

success
boolean
id
string
invalidURLs
string[] | null

Si ignoreInvalidURLs vaut true, ce champ est un tableau contenant les URL non valides qui ont été spécifiées dans la requête. S’il n’y a aucune URL non valide, ce sera un tableau vide. Si ignoreInvalidURLs vaut false, ce champ sera undefined.