Instalación
Node
Uso
- Obtén una clave de API en firecrawl.dev
- Define la clave de API como una variable de entorno llamada
FIRECRAWL_API_KEY
o pásala como parámetro a la claseFirecrawlApp
.
Node
Extracción de una URL
scrapeUrl
. Recibe la URL como parámetro y devuelve los datos extraídos como un diccionario.
Node
Rastreo de un sitio web
crawlUrl
. Recibe la URL inicial y parámetros opcionales como argumentos. El argumento params
te permite especificar opciones adicionales para la tarea de rastreo, como el número máximo de páginas a rastrear, los dominios permitidos y el formato de salida. Consulta Paginación para la paginación automática o manual y la configuración de límites.
Node
Iniciar un rastreo
startCrawl
. Devuelve un ID
de trabajo que puedes usar para comprobar el estado. Usa crawl
cuando necesites un proceso bloqueante que espere hasta la finalización. Consulta Paginación para el comportamiento y los límites de paginación.
Node
Verificar el estado del rastreo
checkCrawlStatus
. Recibe el ID
como parámetro y devuelve el estado actual del trabajo de rastreo.
Node.js
Cancelar un rastreo
cancelCrawl
. Recibe como parámetro el ID del trabajo iniciado con startCrawl
y devuelve el estado de la cancelación.
Node
Mapear un sitio web
mapUrl
. Recibe la URL inicial como parámetro y devuelve los datos del mapeo como un diccionario.
Node
Rastreo de un sitio web con WebSockets
crawlUrlAndWatch
. Recibe la URL inicial y parámetros opcionales como argumentos. El argumento params
te permite especificar opciones adicionales para la tarea de rastreo, como el número máximo de páginas a rastrear, los dominios permitidos y el formato de salida.
Node
Paginación
next
cuando hay más datos disponibles. El SDK de Node realiza la paginación automáticamente por defecto y agrega todos los documentos; en ese caso, next
será null
. Puedes desactivar la paginación automática o establecer límites.
Rastreo
crawl
para la forma más sencilla, o inicia un job y pagina manualmente.
Rastreo simple (paginación automática, por defecto)
- Consulta el flujo por defecto en Rastrear un sitio web.
Rastreo manual con control de paginación (una sola página)
- Inicia un trabajo y luego recupera una página a la vez con
autoPaginate: false
.
Nodo
Rastreo manual con límites (paginación automática + parada anticipada)
- Mantén la paginación automática activada, pero deténla antes con
maxPages
,maxResults
omaxWaitTime
.
Node
Scrape por lotes
batchScrape
, o inicia un job y pagina manualmente.
Raspado por lotes simple (paginación automática, predeterminado)
- Consulta el flujo predeterminado en Raspado por lotes.
Raspado manual por lotes con control de paginación (una sola página)
- Inicia un job y luego recupera una página a la vez con
autoPaginate: false
.
Node
Extracción manual por lotes con límites (paginación automática + detención anticipada)
- Mantén la paginación automática activada, pero deténla antes con
maxPages
,maxResults
omaxWaitTime
.
Node
Manejo de errores
try/catch
.