- Descubre páginas mediante sitemap y recorrido recursivo de enlaces
- Admite filtrado por ruta, límites de profundidad y control de subdominios/enlaces externos
- Devuelve resultados mediante polling, WebSocket o webhook
Pruébalo en el Playground
Prueba el rastreo en el playground interactivo, sin escribir código.
Instalación
Uso básico
POST /v2/crawl con una URL inicial. El endpoint devuelve un ID de trabajo que usas para consultar los resultados.
Cada página rastreada consume 1 crédito. El
limit de rastreo predeterminado es de 10.000 páginas. Establece un limit más bajo para controlar el consumo de créditos (por ejemplo, limit: 100). Se aplican créditos adicionales para ciertas opciones: el modo JSON cuesta 4 créditos adicionales por página, el proxy mejorado cuesta 4 créditos adicionales por página y el análisis de PDF cuesta 1 crédito por página de PDF.Opciones de scraping
scrapeOptions (JS) / scrape_options (Python). Se aplican a cada página que el crawler raspa, incluidos formatos, proxy, caché, acciones, ubicación y etiquetas.
Verificar el estado del rastreo
Los resultados de los trabajos están disponibles a través de la API durante 24 horas después de su finalización. Después de este periodo, aún puedes ver tu historial de rastreos y resultados en los activity logs.
Las páginas en el array
data de los resultados del rastreo son páginas que Firecrawl extrajo correctamente, incluso si el sitio de destino devolvió un error HTTP como 404. El campo metadata.statusCode muestra el código de estado HTTP del sitio de destino. Para recuperar las páginas que Firecrawl no pudo extraer (por ejemplo, errores de red, tiempos de espera o bloqueos por robots.txt), usa el endpoint dedicado Get Crawl Errors (GET /crawl/{id}/errors).Manejo de respuestas
next. Debes solicitar esta URL para obtener los siguientes 10 MB de datos. Si el parámetro next no está presente, indica el final de los datos del rastreo.
Los parámetros
skip y next solo son relevantes cuando se consume la API directamente.
Si usas el SDK, la paginación se gestiona automáticamente y todos
los resultados se devuelven de una vez.Métodos del SDK
crawl con el SDK.
Rastrear y esperar
crawl espera a que el rastreo termine y devuelve la respuesta completa. Gestiona la paginación automáticamente. Esto se recomienda para la mayoría de los casos de uso.
Iniciar y luego verificar el estado
startCrawl / start_crawl devuelve de inmediato un ID de rastreo. Luego puedes verificar el estado manualmente. Esto es útil para rastreos de larga duración o lógica de sondeo personalizada.
Resultados en tiempo real con WebSocket
Webhooks
cURL
Tipos de eventos
| Evento | Descripción |
|---|---|
crawl.started | Se emite cuando comienza el rastreo |
crawl.page | Se emite por cada página extraída correctamente |
crawl.completed | Se emite cuando finaliza el rastreo |
crawl.failed | Se emite si el rastreo encuentra un error |
Carga útil
Verificación de firmas de webhooks
X-Firecrawl-Signature que contiene una firma HMAC-SHA256. Verifica siempre esta firma para asegurarte de que el webhook sea auténtico y no haya sido manipulado.
- Obtén tu secreto de webhook en la pestaña Advanced de la configuración de tu cuenta
- Extrae la firma del encabezado
X-Firecrawl-Signature - Calcula el HMAC-SHA256 del cuerpo sin procesar (raw) de la solicitud usando tu secreto
- Compárala con el encabezado de la firma usando una función segura frente a ataques de temporización
Referencia de configuración
| Parámetro | Tipo | Predeterminado | Descripción |
|---|---|---|---|
url | string | (obligatorio) | La URL inicial desde la que se realizará el rastreo |
limit | integer | 10000 | Número máximo de páginas que se rastrearán |
maxDiscoveryDepth | integer | (ninguno) | Profundidad máxima desde la URL raíz según el orden de descubrimiento. El sitio raíz y las páginas del sitemap tienen una profundidad de descubrimiento de 0. |
includePaths | string[] | (ninguno) | Patrones regex de rutas de URL que se incluirán. Solo se rastrean las rutas que coinciden. |
excludePaths | string[] | (ninguno) | Patrones regex de rutas de URL que se excluirán del rastreo |
regexOnFullURL | boolean | false | Hace coincidir includePaths/excludePaths con la URL completa (incluidos los parámetros de consulta) en lugar de solo con la ruta |
crawlEntireDomain | boolean | false | Sigue enlaces internos a URL del mismo nivel o superiores, no solo a rutas hijas |
allowSubdomains | boolean | false | Sigue enlaces a subdominios del dominio principal |
allowExternalLinks | boolean | false | Sigue enlaces a sitios web externos |
sitemap | string | "include" | Gestión del sitemap: "include" (predeterminado), "skip" o "only" |
ignoreQueryParameters | boolean | false | Evita volver a extraer la misma ruta con distintos parámetros de consulta |
delay | number | (ninguno) | Retraso en segundos entre extracciones para respetar los límites de tasa |
maxConcurrency | integer | (ninguno) | Número máximo de extracciones concurrentes. De forma predeterminada, usa el límite de concurrencia de tu equipo. |
scrapeOptions | object | (ninguno) | Opciones aplicadas a cada página extraída (formatos, proxy, caché, acciones, etc.) |
webhook | object | (ninguno) | Configuración del webhook para notificaciones en tiempo real |
prompt | string | (ninguno) | Prompt en lenguaje natural para generar opciones de rastreo. Los parámetros establecidos explícitamente anulan los equivalentes generados. |
Detalles importantes
- Descubrimiento del sitemap: De forma predeterminada, el crawler incluye el sitemap del sitio web para descubrir URL (
sitemap: "include"). Si establecessitemap: "skip", solo se encontrarán las páginas accesibles mediante enlaces HTML desde la URL raíz. Recursos como PDF o páginas muy anidadas incluidas en el sitemap, pero no enlazadas directamente desde el HTML, no se encontrarán. Para obtener la máxima cobertura, mantén la configuración predeterminada. - Uso de créditos: Cada página rastreada cuesta 1 crédito. El modo JSON añade 4 créditos por página, el proxy mejorado añade 4 créditos por página y el análisis de PDF cuesta 1 crédito por cada página del PDF.
- Expiración de resultados: Los resultados del trabajo están disponibles a través de la API durante 24 horas después de completarse. Después de ese plazo, consulta los resultados en los registros de actividad.
- Errores de crawl: El array
datacontiene las páginas que Firecrawl extrajo correctamente. Usa el endpoint Get Crawl Errors para recuperar las páginas que fallaron debido a errores de red, tiempos de espera o bloqueos de robots.txt.

