Instalación
Node
Uso
- Obtén una clave de API en firecrawl.dev
- Define la clave de API como una variable de entorno llamada
FIRECRAWL_API_KEYo pásala como parámetro a la claseFirecrawlApp.
Node
Extracción de una URL
scrapeUrl. Recibe la URL como parámetro y devuelve los datos extraídos como un diccionario.
Node.js
Rastreo de un sitio web
crawlUrl. Recibe la URL inicial y parámetros opcionales como argumentos. El argumento params te permite especificar opciones adicionales para la tarea de rastreo, como el número máximo de páginas a rastrear, los dominios permitidos y el formato de salida. Consulta Paginación para la paginación automática o manual y la configuración de límites.
Node
Iniciar un rastreo
startCrawl. Devuelve un ID de trabajo que puedes usar para comprobar el estado. Usa crawl cuando necesites un proceso bloqueante que espere hasta la finalización. Consulta Paginación para el comportamiento y los límites de paginación.
Node
Verificar el estado del rastreo
checkCrawlStatus. Recibe el ID como parámetro y devuelve el estado actual del trabajo de rastreo.
Node.js
Cancelar un rastreo
cancelCrawl. Recibe como parámetro el ID del trabajo iniciado con startCrawl y devuelve el estado de la cancelación.
Node
Mapear un sitio web
mapUrl. Recibe la URL inicial como parámetro y devuelve los datos del mapeo como un diccionario.
Node
Rastreo de un sitio web con WebSockets
crawlUrlAndWatch. Recibe la URL inicial y parámetros opcionales como argumentos. El argumento params te permite especificar opciones adicionales para la tarea de rastreo, como el número máximo de páginas a rastrear, los dominios permitidos y el formato de salida.
Node
Paginación
next cuando hay más datos disponibles. El SDK de Node realiza la paginación automáticamente por defecto y agrega todos los documentos; en ese caso, next será null. Puedes desactivar la paginación automática o establecer límites.
Rastreo
crawl para la forma más sencilla, o inicia un job y pagina manualmente.
Rastreo simple (paginación automática, por defecto)
- Consulta el flujo por defecto en Rastrear un sitio web.
Rastreo manual con control de paginación (una sola página)
- Inicia un trabajo y luego recupera una página a la vez con
autoPaginate: false.
Nodo
Rastreo manual con límites (paginación automática + parada anticipada)
- Mantén la paginación automática activada, pero deténla antes con
maxPages,maxResultsomaxWaitTime.
Node
Scrape por lotes
batchScrape, o inicia un job y pagina manualmente.
Raspado por lotes simple (paginación automática, predeterminado)
- Consulta el flujo predeterminado en Raspado por lotes.
Raspado manual por lotes con control de paginación (una sola página)
- Inicia un job y luego recupera una página a la vez con
autoPaginate: false.
Node
Extracción manual por lotes con límites (paginación automática + detención anticipada)
- Mantén la paginación automática activada, pero deténla antes con
maxPages,maxResultsomaxWaitTime.
Node
Manejo de errores
try/catch.
