Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
La URL que se va a extraer
Un objeto de especificación de un webhook.
Número máximo de scrapes simultáneos. Este parámetro te permite establecer un límite de concurrencia para este scrape por lotes. Si no se especifica, el scrape por lotes usa el límite de concurrencia definido para tu equipo.
Si se especifican URLs no válidas en el array urls, se ignorarán. En lugar de hacer que falle toda la solicitud, se creará un scraping por lotes con las URLs válidas restantes y las URLs no válidas se devolverán en el campo invalidURLs de la respuesta.
Formatos de salida que se incluirán en la respuesta. Puedes especificar uno o varios formatos, ya sea como cadenas (p. ej., 'markdown') o como objetos con opciones adicionales (p. ej., { type: 'json', schema: {...} }). Algunos formatos requieren configurar opciones específicas. Ejemplo: ['markdown', { type: 'json', schema: {...} }].
Devuelve solo el contenido principal de la página, sin incluir encabezados, navegación, pies de página, etc.
Etiquetas que se incluirán en la salida.
Etiquetas que se excluirán de la salida.
Devuelve una versión en caché de la página si su antigüedad es menor que este valor en milisegundos. Si la versión en caché de la página es más antigua que este valor, se hará scraping de la página. Si no necesitas datos extremadamente recientes, habilitar esto puede acelerar tus procesos de scraping hasta un 500 %. El valor predeterminado es de 2 días.
Encabezados que se enviarán en la solicitud. Pueden usarse para enviar cookies, user-agent, etc.
Especifica un tiempo de espera en milisegundos antes de obtener el contenido, dando a la página tiempo suficiente para cargarse. Este tiempo de espera es adicional a la función de espera inteligente de Firecrawl.
Defínelo en true si quieres emular el scraping desde un dispositivo móvil. Útil para probar páginas responsive y tomar capturas de pantalla móviles.
Omitir la verificación de certificados TLS al realizar solicitudes.
Tiempo de espera de la solicitud en milisegundos.
Controla cómo se procesan los archivos durante el scraping. Cuando se incluye "pdf" (valor predeterminado), se extrae el contenido del PDF y se convierte a formato Markdown, con la facturación basada en el número de páginas (1 crédito por página). Cuando se pasa un array vacío, el archivo PDF se devuelve codificado en base64 con una tarifa fija de 1 crédito por todo el PDF.
Acciones que se realizarán en la página antes de extraer el contenido
Configuración de ubicación para la solicitud. Cuando se especifica, se utilizará un proxy adecuado si está disponible y se emularán la configuración de idioma y la zona horaria correspondientes. De manera predeterminada será "US" si no se especifica.
Elimina todas las imágenes codificadas en base64 de la salida, que pueden ser excesivamente largas. El texto alternativo (alt) de la imagen se mantiene en la salida, pero la URL se reemplaza por un marcador de posición.
Habilita el bloqueo de anuncios y de ventanas emergentes de cookies.
Especifica el tipo de proxy que se utilizará.
basic, stealth, auto Si es true, la página se almacenará en el índice y la caché de Firecrawl. Establecerlo en false es útil si tu actividad de scraping puede plantear problemas relacionados con la protección de datos. El uso de algunos parámetros asociados con scraping de datos sensibles (por ejemplo, acciones, headers) hará que este parámetro sea false.
Si es true, se desactivará la retención de datos para este scraping por lotes. Para habilitar esta función, comunícate con [email protected]
Respuesta satisfactoria