- Analyse d’URL : Parcourt le sitemap et le site pour identifier les liens
- Parcours : Suit les liens de manière récursive afin de trouver toutes les sous-pages
- Scraping : Extrait le contenu de chaque page, en gérant le JavaScript et les limites de taux
- Résultats : Convertit les données en Markdown propre ou en format structuré
Crawl
/crawl endpoint
Par défaut, le crawler inclut le sitemap du site pour découvrir des URL (
sitemap: "include"). Si vous définissez sitemap: "skip", le crawler ne trouvera que les pages accessibles via des liens HTML à partir de l’URL racine. Les ressources comme les PDF ou les pages très profondément imbriquées qui sont listées dans le sitemap mais non liées directement depuis une page HTML seront ignorées. Pour une couverture maximale, conservez le paramètre par défaut sitemap: "include".Installation
Utilisation
Chaque page explorée consomme 1 crédit. La valeur par défaut de
limit pour l’exploration est de 10 000 pages — définissez une valeur de limit plus basse pour contrôler l’utilisation des crédits (par exemple limit: 100). Des crédits supplémentaires s’appliquent pour certaines options : le mode JSON coûte 4 crédits supplémentaires par page, le proxy amélioré coûte 4 crédits supplémentaires par page, et l’analyse des PDF coûte 1 crédit par page de PDF.Options de scrape dans crawl
scrapeOptions (JS) / scrape_options (Python). Elles s’appliquent à chaque page que le crawler extrait : formats, proxy, mise en cache, actions, localisation, tags, etc. Consultez la liste complète dans la référence de l’API Scrape.
Réponse de l’API
ID pour vérifier l’état du crawl.
Si vous utilisez le SDK, consultez les méthodes ci-dessous pour comprendre le comportement « waiter » vs « starter ».
Vérifier un job de crawl
Les résultats des jobs de crawl sont disponibles via l’API pendant 24 heures après leur achèvement. Après cette période, vous pouvez toujours consulter l’historique de vos crawls et leurs résultats dans les journaux d’activité.
Les pages dans le tableau
data des résultats de crawl sont des pages que Firecrawl a extraites avec succès — même si le site cible a renvoyé une erreur HTTP comme 404. Le champ metadata.statusCode indique le code de statut HTTP renvoyé par le site cible. Pour récupérer les pages que Firecrawl lui‑même n’a pas réussi à extraire (par exemple en cas d’erreurs réseau, d’expirations de délai ou de blocages liés à robots.txt), utilisez l’endpoint dédié Get Crawl Errors (GET /crawl/{id}/errors).Gestion des réponses
next est fourni. Vous devez appeler cette URL pour récupérer les 10 Mo de données suivants. Si le paramètre next est absent, cela indique la fin des données du crawl.
Le paramètre skip définit le nombre maximal de résultats renvoyés pour chaque segment de résultats.
Les paramètres skip et next ne sont pertinents que lors d’appels directs à l’API.
Si vous utilisez le SDK, nous gérons cela pour vous et renverrons
tous les résultats en une seule fois.
Méthodes du SDK
- Crawler puis attendre (
crawl) :- Attend la fin du crawl et renvoie la réponse complète
- Gère automatiquement la pagination
- Recommandé pour la plupart des cas d’usage
- Démarrer puis vérifier l’état (
startCrawl/start_crawl) :- Renvoie immédiatement un ID de crawl
- Permet une vérification manuelle de l’état
- Utile pour les crawls de longue durée ou une logique de polling personnalisée
WebSocket de crawl
Webhook de crawl
cURL
Référence rapide
crawl.started- Au début de l’explorationcrawl.page- Pour chaque page extraite avec succèscrawl.completed- À la fin de l’explorationcrawl.failed- Si l’exploration échoue
Sécurité : vérification des signatures de webhook
X-Firecrawl-Signature contenant une signature HMAC-SHA256. Vérifiez toujours cette signature pour vous assurer que le webhook est authentique et n’a pas été altéré.
Fonctionnement :
- Récupérez votre secret de webhook dans l’onglet Advanced des paramètres de votre compte
- Extrayez la signature de l’en-tête
X-Firecrawl-Signature - Calculez le HMAC-SHA256 du corps brut de la requête à l’aide de votre secret
- Comparez-le avec l’en-tête de signature en utilisant une fonction sécurisée contre les attaques par temporisation

