Saltar al contenido principal
POST
/
extract
Extrae datos estructurados de páginas web usando LLMs
curl --request POST \
  --url https://api.firecrawl.dev/v1/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "ignoreInvalidURLs": false
}
'
{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}
Nota: Ya está disponible una nueva versión v2 de esta API con funcionalidades y rendimiento mejorados.

Autorizaciones

Authorization
string
header
requerido

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Cuerpo

application/json
urls
string<uri>[]
requerido

Las URL de las que se va a extraer datos. Las URL deben estar en formato glob.

prompt
string

Prompt que guía el proceso de extracción

schema
object

Esquema para definir la estructura de los datos extraídos. Debe ajustarse a JSON Schema.

Cuando está establecido en true, la extracción utilizará la búsqueda web para encontrar datos adicionales

ignoreSitemap
boolean
predeterminado:false

Si se establece en true, se ignorarán los archivos sitemap.xml durante el rastreo del sitio web

includeSubdomains
boolean
predeterminado:true

Si es true, también se escanearán los subdominios de las URL proporcionadas

showSources
boolean
predeterminado:false

Si es true, las fuentes utilizadas para extraer los datos se incluirán en la respuesta en la clave sources.

scrapeOptions
object
ignoreInvalidURLs
boolean
predeterminado:false

Si se especifican URLs no válidas en el array urls, se ignorarán. En lugar de hacer que falle toda la solicitud, se realizará una extracción con las URLs válidas restantes y las URLs no válidas se devolverán en el campo invalidURLs de la respuesta.

Respuesta

Extracción exitosa

success
boolean
id
string
invalidURLs
string[] | null

Si ignoreInvalidURLs es true, será un array que contiene las URL no válidas especificadas en la solicitud. Si no hay URL no válidas, será un array vacío. Si ignoreInvalidURLs es false, este campo será undefined.