- Análisis de URL: Examina el sitemap y rastrea el sitio web para identificar enlaces
- Recorrido: Sigue enlaces de manera recursiva para encontrar todas las subpáginas
- Extracción (scraping): Extrae contenido de cada página, gestionando JS y límites de tasa
- Salida: Convierte los datos a Markdown limpio o a un formato estructurado
Rastreo
punto de conexión /crawl
De forma predeterminada, el rastreador incluye el sitemap del sitio web para descubrir URLs (
sitemap: "include"). Si configuras sitemap: "skip", el rastreador solo encontrará páginas accesibles a través de enlaces HTML que partan de la URL raíz. Recursos como PDFs o páginas muy anidadas que estén listadas en el sitemap pero no enlazadas directamente desde ninguna página HTML se omitirán. Para obtener la máxima cobertura, mantén la configuración predeterminada sitemap: "include".Instalación
Uso
Cada página rastreada consume 1 crédito. El
limit de rastreo predeterminado es de 10.000 páginas — establece un limit más bajo para controlar el consumo de créditos (por ejemplo, limit: 100). Se aplican créditos adicionales para ciertas opciones: el modo JSON cuesta 4 créditos adicionales por página, el proxy mejorado cuesta 4 créditos adicionales por página y el análisis de PDF cuesta 1 crédito por página de PDF.Opciones de scraping en crawl
scrapeOptions (JS) / scrape_options (Python). Se aplican a cada página que el crawler raspa: formatos, proxy, caché, acciones, ubicación, etiquetas, etc. Consulta la lista completa en la referencia de la API de Scrape.
Respuesta de la API
ID para verificar el estado del rastreo.
Si usas el SDK, consulta los métodos a continuación para conocer el comportamiento de waiter vs starter.
Consultar trabajo de rastreo
Los resultados de los trabajos están disponibles a través de la API durante 24 horas después de su finalización. Después de este periodo, aún puedes ver tu historial de rastreos y resultados en los activity logs.
Las páginas en el array
data de los resultados del rastreo son páginas que Firecrawl extrajo correctamente, incluso si el sitio de destino devolvió un error HTTP como 404. El campo metadata.statusCode muestra el código de estado HTTP del sitio de destino. Para recuperar las páginas que Firecrawl no pudo extraer (por ejemplo, errores de red, tiempos de espera o bloqueos por robots.txt), usa el endpoint dedicado Get Crawl Errors (GET /crawl/{id}/errors).Manejo de respuestas
next. Debes solicitar esta URL para obtener los siguientes 10 MB de datos. Si el parámetro next no está presente, indica el final de los datos del rastreo.
El parámetro skip define el número máximo de resultados incluidos en cada bloque de resultados devueltos.
Los parámetros
skip y next solo son relevantes cuando se consume la API directamente.
Si usas el SDK, nos encargamos de esto por ti y devolveremos
todos los resultados de una vez.Métodos del SDK
- Rastrear y esperar (
crawl):- Espera a que el rastreo termine y devuelve la respuesta completa
- Gestiona la paginación automáticamente
- Recomendado para la mayoría de los casos de uso
- Iniciar y luego verificar el estado (
startCrawl/start_crawl):- Devuelve de inmediato un ID de rastreo
- Permite verificar el estado manualmente
- Útil para rastreos de larga duración o lógica de sondeo personalizada
WebSocket de rastreo
Crawl URL and Watch, permite la extracción y el monitoreo de datos en tiempo real. Inicia un rastreo con una URL y personalízalo con opciones como límites de páginas, dominios permitidos y formatos de salida; ideal para necesidades de procesamiento de datos inmediatas.
Webhook de rastreo
cURL
Referencia rápida
crawl.started- Cuando se inicia el rastreocrawl.page- Por cada página extraída correctamentecrawl.completed- Cuando finaliza el rastreocrawl.failed- Si ocurre un error durante el rastreo
Seguridad: Verificación de firmas de webhooks
X-Firecrawl-Signature que contiene una firma HMAC-SHA256. Verifica siempre esta firma para asegurarte de que el webhook sea auténtico y no haya sido manipulado.
Cómo funciona:
- Obtén tu secreto de webhook en la pestaña Advanced de la configuración de tu cuenta
- Extrae la firma del encabezado
X-Firecrawl-Signature - Calcula el HMAC-SHA256 del cuerpo sin procesar (raw) de la solicitud usando tu secreto
- Compárala con el encabezado de la firma usando una función segura frente a ataques de temporización

