sitemap te permite elegir:
"include" (predeterminado): Usar el sitemap y además descubrir otras páginas."skip": Ignorar el sitemap por completo.crawlEntireDomain - Rastrea todo el dominio, no solo las páginas hijasmaxDiscoveryDepth - Controla la profundidad del rastreo (reemplaza maxDepth)Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
La URL base desde la que se iniciará el rastreo
Un prompt que se usa para generar las opciones del crawler (todos los parámetros que se indican a continuación) a partir de lenguaje natural. Los parámetros establecidos explícitamente tendrán prioridad sobre los equivalentes generados.
Patrones de expresiones regulares para las rutas (pathname) de URL que excluyen del rastreo las URLs que coincidan con ellos. Por ejemplo, si configuras "excludePaths": ["blog/.*"] para la URL base firecrawl.dev, se excluirán todos los resultados que coincidan con ese patrón, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.
Patrones de expresiones regulares para rutas de URL (pathname) que se usan para incluir URLs coincidentes en el rastreo. Solo las rutas que coincidan con los patrones especificados se incluirán en la respuesta. Por ejemplo, si configuras "includePaths": ["blog/.*"] para la URL base firecrawl.dev, solo se incluirán los resultados que coincidan con ese patrón, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.
Profundidad máxima de rastreo basada en el orden de descubrimiento. El sitio raíz y las páginas incluidas en el sitemap tienen una profundidad de descubrimiento de 0. Por ejemplo, si la estableces en 1 y configuras sitemap: 'skip', solo se rastreará la URL introducida y todas las URL que estén enlazadas en esa página.
Modo sitemap al rastrear. Si lo estableces en “skip”, el rastreador ignorará el sitemap del sitio web y solo rastreará la URL proporcionada y descubrirá páginas a partir de ahí.
skip, include No vuelvas a scrapear la misma ruta con distintos parámetros de consulta (o sin parámetros)
Número máximo de páginas a rastrear. El límite por defecto es 10.000.
Permite que el crawler siga enlaces internos a URLs hermanas o padre, no solo rutas hijas.
false: Solo rastrea URLs más profundas (hijas). → p. ej. /features/feature-1 → /features/feature-1/tips ✅ → No seguirá /pricing ni / ❌
true: Rastrea cualquier enlace interno, incluidos hermanos y padres. → p. ej. /features/feature-1 → /pricing, /, etc. ✅
Usa true para lograr una cobertura interna más amplia, más allá de las rutas anidadas.
Permite que el rastreador siga enlaces a sitios web externos.
Permite que el rastreador siga enlaces a subdominios del dominio principal.
Intervalo en segundos entre scrapes. Esto ayuda a respetar los límites de velocidad de los sitios web.
Número máximo de scrapes simultáneos. Este parámetro te permite establecer un límite de concurrencia para este rastreo. Si no se especifica, el rastreo respeta el límite de concurrencia de tu equipo.
Un objeto de especificación de webhook.
Si se establece en true, se desactivará la retención de datos para este rastreo. Para habilitar esta función, póngase en contacto con [email protected]