Saltar al contenido principal
POST
/
extract
Extrae datos estructurados de páginas web con LLMs
curl --request POST \
  --url https://api.firecrawl.dev/v2/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "formats": [
      "markdown"
    ],
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 172800000,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": true,
    "timeout": 123,
    "parsers": [
      "pdf"
    ],
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "auto",
    "storeInCache": true
  },
  "ignoreInvalidURLs": true
}
'
{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

Autorizaciones

Authorization
string
header
requerido

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Cuerpo

application/json
urls
string<uri>[]
requerido

Las URL de las que se extraerán datos. Deben estar en formato glob.

prompt
string

Prompt para orientar el proceso de extracción

schema
object

Esquema que define la estructura de los datos extraídos. Debe cumplir con JSON Schema.

Si es true, la extracción utilizará la búsqueda web para encontrar datos adicionales

ignoreSitemap
boolean
predeterminado:false

Si es true, se ignorarán los archivos sitemap.xml durante el escaneo del sitio web

includeSubdomains
boolean
predeterminado:true

Si se establece en true, también se escanearán los subdominios de las URL proporcionadas

showSources
boolean
predeterminado:false

Cuando se establece en true, las fuentes utilizadas para extraer los datos se incluirán en la respuesta bajo la clave sources.

scrapeOptions
object
ignoreInvalidURLs
boolean
predeterminado:true

Si se especifican URLs no válidas en el array urls, se ignorarán. En lugar de provocar el fallo de toda la solicitud, se realizará una extracción con las URLs válidas restantes, y las URLs no válidas se devolverán en el campo invalidURLs de la respuesta.

Respuesta

Extracción exitosa

success
boolean
id
string
invalidURLs
string[] | null

Si ignoreInvalidURLs es true, este será un array que contendrá las URL no válidas que se especificaron en la solicitud. Si no hubo URL no válidas, será un array vacío. Si ignoreInvalidURLs es false, este campo será undefined.