Nota: Ya está disponible una nueva versión v2 de esta API con mayor rendimiento y fiabilidad en el procesamiento por lotes.
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
La URL que se va a rastrear
Objeto de especificación de webhook.
Número máximo de scrapes simultáneos. Este parámetro te permite establecer un límite de concurrencia para este scrape por lotes. Si no se especifica, el scrape por lotes se ajustará al límite de concurrencia de tu equipo.
Si se especifican URL no válidas en el array urls, se ignorarán. En lugar de que falle toda la solicitud, se creará un scraping por lotes con las URL válidas restantes y las URL no válidas se devolverán en el campo invalidURLs de la respuesta.
Devuelve únicamente el contenido principal de la página, excluyendo encabezados, elementos de navegación, pies de página, etc.
Etiquetas que se deben incluir en la salida.
Etiquetas que se excluirán de la salida.
Devuelve una versión en caché de la página si su antigüedad es menor que este valor, en milisegundos. Si la versión en caché de la página es más antigua que este valor, la página se volverá a scrapear. Si no necesitas datos extremadamente recientes, activar esta opción puede acelerar tus procesos de scraping hasta un 500 %. El valor predeterminado es 0, lo que desactiva la caché.
Cabeceras que se enviarán con la solicitud. Pueden usarse para enviar cookies, user-agent, etc.
Especifica un retraso, en milisegundos, antes de obtener el contenido, permitiendo que la página tenga tiempo suficiente para cargarse.
Configúralo en true si quieres emular el scraping desde un dispositivo móvil. Es útil para probar páginas responsive y tomar capturas de pantalla en dispositivos móviles.
Omitir la verificación del certificado TLS al realizar solicitudes
Tiempo de espera de la solicitud en milisegundos
Controla cómo se procesan los archivos PDF durante el scraping. Cuando es true, el contenido del PDF se extrae y se convierte al formato Markdown, y la facturación se basa en el número de páginas (1 crédito por página). Cuando es false, el archivo PDF se devuelve codificado en base64 con una tarifa plana total de 1 crédito.
Objeto de opciones JSON
Acciones que se ejecutarán en la página antes de extraer el contenido
Configuración de ubicación de la solicitud. Cuando se especifique, usará un proxy adecuado si está disponible y emulará la configuración de idioma y zona horaria correspondientes. Si no se especifica, el valor predeterminado es 'US'.
Elimina todas las imágenes en formato base64 de la salida, que pueden hacerla excesivamente larga. El texto alternativo de la imagen se conserva en la salida, pero la URL se reemplaza por un marcador de posición.
Habilita el bloqueo de anuncios y ventanas emergentes de cookies.
Especifica el tipo de proxy que se va a usar.
Si no especificas un proxy, Firecrawl usará basic de forma predeterminada.
basic, stealth, auto Si es true, la página se almacenará en el índice y la caché de Firecrawl. Establecerlo en false es útil si tu actividad de scraping puede implicar problemas de protección de datos. El uso de algunos parámetros asociados con scraping sensible (acciones, headers) hará que este parámetro tenga que ser false.
Formatos que se incluirán en el resultado.
markdown, html, rawHtml, links, screenshot, screenshot@fullPage, json, changeTracking Opciones de seguimiento de cambios (Beta). Solo aplicable cuando 'changeTracking' está incluido en los formatos. El formato 'markdown' también debe especificarse al usar el seguimiento de cambios.
Si es true, no se conservarán datos de esta extracción por lotes. Para habilitar esta función, ponte en contacto con [email protected]
Respuesta satisfactoria