Raspado en lote

Autorizaciones

Authorization

string

header

requerido

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Cuerpo

application/json

urls

string<uri>[]

requerido

La URL que se va a extraer

webhook

object

Un objeto de especificación de un webhook.

Mostrar atributos secundarios

maxConcurrency

integer

Número máximo de scrapes simultáneos. Este parámetro te permite establecer un límite de concurrencia para este scrape por lotes. Si no se especifica, el scrape por lotes usa el límite de concurrencia definido para tu equipo.

ignoreInvalidURLs

boolean

predeterminado:true

Si se especifican URLs no válidas en el array urls, se ignorarán. En lugar de hacer que falle toda la solicitud, se creará un scraping por lotes con las URLs válidas restantes y las URLs no válidas se devolverán en el campo invalidURLs de la respuesta.

formats

Formatos de salida que se incluirán en la respuesta. Puedes especificar uno o varios formatos, ya sea como cadenas (p. ej., 'markdown') o como objetos con opciones adicionales (p. ej., { type: 'json', schema: {...} }). Algunos formatos requieren configurar opciones específicas. Ejemplo: ['markdown', { type: 'json', schema: {...} }].

Mostrar atributos secundarios

onlyMainContent

boolean

predeterminado:true

Devuelve solo el contenido principal de la página, sin incluir encabezados, navegación, pies de página, etc.

includeTags

string[]

Etiquetas que se incluirán en la salida.

excludeTags

string[]

Etiquetas que se excluirán de la salida.

maxAge

integer

predeterminado:172800000

Devuelve una versión en caché de la página si su antigüedad es menor que este valor en milisegundos. Si la versión en caché de la página es más antigua que este valor, se hará scraping de la página. Si no necesitas datos extremadamente recientes, habilitar esto puede acelerar tus procesos de scraping hasta un 500 %. El valor predeterminado es de 2 días.

minAge

integer

<[ { "key": "0", "translation": "Cuando se establece, la solicitud solo consulta la caché y nunca inicia una nueva extracción. El valor se expresa en milisegundos y especifica la antigüedad mínima que deben tener los datos almacenados en caché. Si existen datos en caché que coinciden, se devuelven al instante. Si no se encuentran datos en caché, se devuelve un 404 con el código de error SCRAPE_NO_CACHED_DATA. Establécelo en 1 para aceptar cualquier dato en caché, independientemente de su antigüedad." } ]</>

headers

object

Encabezados que se enviarán en la solicitud. Pueden usarse para enviar cookies, user-agent, etc.

waitFor

integer

predeterminado:0

Especifica un tiempo de espera en milisegundos antes de obtener el contenido, dando a la página tiempo suficiente para cargarse. Este tiempo de espera es adicional a la función de espera inteligente de Firecrawl.

mobile

boolean

predeterminado:false

Defínelo en true si quieres emular el scraping desde un dispositivo móvil. Útil para probar páginas responsive y tomar capturas de pantalla móviles.

skipTlsVerification

boolean

predeterminado:true

Omitir la verificación de certificados TLS al realizar solicitudes.

timeout

integer

predeterminado:30000

Tiempo de espera (timeout) de la solicitud, en milisegundos. El valor predeterminado es 30000 (30 segundos) y el máximo es 300000 (300 segundos).

Rango requerido: x <= 300000

parsers

object[]

Controla cómo se procesan los archivos durante el scraping. Cuando se incluye "pdf" (valor predeterminado), se extrae el contenido del PDF y se convierte a formato Markdown, con la facturación basada en el número de páginas (1 crédito por página). Cuando se pasa un array vacío, el archivo PDF se devuelve codificado en base64 con una tarifa fija de 1 crédito por todo el PDF.

Mostrar atributos secundarios

actions

Acciones que se realizarán en la página antes de extraer el contenido

Mostrar atributos secundarios

location

object

Configuración de ubicación para la solicitud. Cuando se especifica, se utilizará un proxy adecuado si está disponible y se emularán la configuración de idioma y la zona horaria correspondientes. De manera predeterminada será "US" si no se especifica.

Mostrar atributos secundarios

removeBase64Images

boolean

predeterminado:true

Elimina todas las imágenes codificadas en base64 de la salida, que pueden ser excesivamente largas. El texto alternativo (alt) de la imagen se mantiene en la salida, pero la URL se reemplaza por un marcador de posición.

blockAds

boolean

predeterminado:true

Habilita el bloqueo de anuncios y de ventanas emergentes de cookies.

proxy

enum<string>

predeterminado:auto

Especifica el tipo de proxy que se usará.

basic: Proxies para hacer scraping de sitios con poca o ninguna protección antibots. Son rápidos y suelen funcionar bien.
enhanced: Proxies avanzados para hacer scraping de sitios con soluciones antibots más sofisticadas. Son más lentos, pero más fiables en ciertos sitios. Pueden costar hasta 5 créditos por solicitud.
auto: Firecrawl reintentará automáticamente el scraping con proxies mejorados si el proxy básico falla. Si el reintento con enhanced tiene éxito, se cobrarán 5 créditos por el scraping. Si el primer intento con basic tiene éxito, solo se cobrará el coste normal.

Opciones disponibles:

basic,

enhanced,

auto

storeInCache

boolean

predeterminado:true

Si es true, la página se almacenará en el índice y la caché de Firecrawl. Establecerlo en false es útil si tu actividad de scraping puede plantear problemas relacionados con la protección de datos. El uso de algunos parámetros asociados con scraping de datos sensibles (por ejemplo, acciones, headers) hará que este parámetro sea false.

zeroDataRetention

boolean

predeterminado:false

Si es true, se desactivará la retención de datos para este scraping por lotes. Para habilitar esta función, comunícate con help@firecrawl.dev

Respuesta

Respuesta satisfactoria

success

boolean

string

url

string<uri>

invalidURLs

string[] | null

Si ignoreInvalidURLs es true, este será un array que contiene las URL no válidas que se especificaron en la solicitud. Si no hubo URL no válidas, será un array vacío. Si ignoreInvalidURLs es false, este campo será undefined.

Uso de la API

Endpoints de scraping

Endpoints de búsqueda

Endpoints de mapeo

Endpoints de rastreo

Endpoints del navegador

Endpoints de agente

Endpoints de extracción

Endpoints de cuenta

Payloads de webhook

Autorizaciones

Cuerpo

Respuesta