sitemap vous permet de choisir :
"include" (par défaut) : utiliser le sitemap et découvrir également d’autres pages."skip" : ignorer complètement le sitemap.crawlEntireDomain - Crawler l’ensemble du domaine, pas seulement les pages enfantsmaxDiscoveryDepth - Contrôler la profondeur de crawl (remplace maxDepth)Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
L’URL de base à partir de laquelle lancer l’exploration
Invite à utiliser pour générer les options du crawler (tous les paramètres ci-dessous) à partir d’un texte en langage naturel. Les paramètres définis explicitement auront la priorité sur les équivalents générés.
Motifs d’expressions régulières pour les chemins d’URL qui excluent du crawl les URL correspondantes. Par exemple, si vous définissez "excludePaths": ["blog/.*"] pour l’URL de base firecrawl.dev, tous les résultats correspondant à ce motif seront exclus, comme https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.
Motifs regex de chemins d’URL indiquant quelles URL inclure dans le crawl. Seuls les chemins correspondant aux motifs spécifiés seront inclus dans la réponse. Par exemple, si vous définissez "includePaths": ["blog/.*"] pour l’URL de base firecrawl.dev, seuls les résultats correspondant à ce motif seront inclus, comme https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.
Profondeur maximale d’exploration basée sur l’ordre de découverte. Le site racine et les pages issues du sitemap ont une profondeur de découverte de 0. Par exemple, si vous la définissez sur 1 et que vous définissez sitemap: 'skip', vous n’explorerez que l’URL saisie ainsi que toutes les URL qui y sont liées depuis cette page.
Mode sitemap lors de l’exploration. Si vous le définissez sur « skip », le crawler ignorera le sitemap du site web et n’explorera que l’URL saisie, en découvrant ensuite les pages à partir de là.
skip, include Ne relancez pas le scraping du même chemin avec des paramètres de requête différents (ou sans paramètres)
Nombre maximal de pages à explorer. La limite par défaut est de 10 000.
Autorise le crawler à suivre les liens internes vers des URL de même niveau ou parentes, pas seulement les chemins enfants.
false : Explore uniquement les URL plus profondes (enfants). → p. ex. /features/feature-1 → /features/feature-1/tips ✅ → Ne suivra pas /pricing ou / ❌
true : Explore tous les liens internes, y compris les URL de même niveau et parentes. → p. ex. /features/feature-1 → /pricing, /, etc. ✅
Utilisez true pour une couverture interne plus large au‑delà des chemins imbriqués.
Permet au crawler de suivre des liens vers des sites Web externes.
Autorise le crawler à suivre les liens pointant vers les sous-domaines du domaine principal.
Délai en secondes entre deux opérations de scraping. Cela permet de respecter les limites de fréquence imposées par les sites web.
Nombre maximal d’opérations de scraping simultanées. Ce paramètre vous permet de définir une limite de parallélisme pour ce crawl. S’il n’est pas renseigné, le crawl utilise la limite de parallélisme définie pour votre équipe.
Objet de spécification de webhook.
Si cette valeur est définie sur true, aucune donnée ne sera conservée pour ce crawl (zéro conservation des données). Pour activer cette fonctionnalité, veuillez contacter [email protected]