Passer au contenu principal
POST
/
extract
Extraire des données structurées depuis des pages à l’aide de LLM
curl --request POST \
  --url https://api.firecrawl.dev/v1/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "ignoreInvalidURLs": false
}
'
{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}
Remarque : Une nouvelle version v2 de cette API est désormais disponible, avec des fonctionnalités améliorées et de meilleures performances.

Autorisations

Authorization
string
header
requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json
urls
string<uri>[]
requis

Les URL à partir desquelles extraire les données. Les URL doivent utiliser le format glob.

prompt
string

Prompt guidant le processus d’extraction

schema
object

Schéma qui définit la structure des données extraites. Doit être conforme à la spécification JSON Schema.

Lorsque la valeur est définie sur true, l’extraction utilisera la recherche sur le Web pour trouver des données supplémentaires

ignoreSitemap
boolean
défaut:false

Lorsque cette option est à true, les fichiers sitemap.xml sont ignorés lors de l’analyse du site web

includeSubdomains
boolean
défaut:true

Si activé, les sous-domaines des URL fournies seront également explorés

showSources
boolean
défaut:false

Lorsque cette option est définie sur true, les sources utilisées pour extraire les données seront incluses dans la réponse sous la clé sources.

scrapeOptions
object
ignoreInvalidURLs
boolean
défaut:false

Si des URL non valides sont spécifiées dans le tableau urls, elles seront ignorées. Au lieu de faire échouer toute la requête, une extraction sera effectuée à partir des URL valides restantes, et les URL non valides seront renvoyées dans le champ invalidURLs de la réponse.

Réponse

Extraction réussie

success
boolean
id
string
invalidURLs
string[] | null

Si ignoreInvalidURLs est défini sur true, il s’agit d’un tableau contenant les URL invalides spécifiées dans la requête. S’il n’y a aucune URL invalide, ce sera un tableau vide. Si ignoreInvalidURLs est défini sur false, ce champ sera undefined.