/extract
simplifie la collecte de données structurées à partir d’un nombre quelconque d’URL ou de domaines entiers. Fournissez une liste d’URL, éventuellement avec des caractères génériques (p. ex. example.com/*
), ainsi qu’un prompt ou un schéma décrivant les informations recherchées. Firecrawl gère les détails du crawling, du parsing et de la consolidation de jeux de données, petits ou grands.
Extract est facturé différemment des autres points de terminaison. Consultez la tarification d’Extract pour plus de détails.
Utilisation de /extract
- Page unique
Exemple :https://firecrawl.dev/some-page
- Pages multiples / Domaine complet
Exemple :https://firecrawl.dev/*
/*
, Firecrawl va automatiquement explorer et parser toutes les URL qu’il peut découvrir sur ce domaine, puis extraire les données demandées. Cette fonctionnalité est expérimentale ; écrivez à help@firecrawl.com en cas de problème.
Exemple d’utilisation
- urls : Tableau d’une ou plusieurs URL. Prend en charge les caractères génériques (
/*
) pour un crawl plus large. - prompt (Optionnel sauf si aucun schéma) : Instruction en langage naturel décrivant les données souhaitées ou la manière dont vous voulez qu’elles soient structurées.
- schema (Optionnel sauf si aucun prompt) : Structure plus stricte si vous connaissez déjà le format JSON.
- enableWebSearch (Optionnel) : Lorsque
true
, l’extraction peut suivre des liens en dehors du domaine spécifié.
Réponse (SDKs)
JSON
Statut et achèvement du job
- Consulter le statut du job : envoyez une requête au point de terminaison /extract/ pour vérifier s’il est toujours en cours ou terminé.
- Attendre les résultats : si vous utilisez la méthode par défaut
extract
(Python/Node), le SDK attend et renvoie les résultats finaux. - Démarrer puis interroger : si vous utilisez les méthodes de démarrage —
start_extract
(Python) oustartExtract
(Node) — le SDK renvoie immédiatement un ID de job. Utilisezget_extract_status
(Python) ougetExtractStatus
(Node) pour suivre l’avancement.
Ce point de terminaison ne fonctionne que pour les jobs en cours ou récemment terminés (dans les 24 heures).
États possibles
- completed: L’extraction a réussi.
- processing: Firecrawl traite encore votre requête.
- failed: Une erreur s’est produite ; les données n’ont pas été entièrement extraites.
- cancelled: La tâche a été annulée par l’utilisateur.
Exemple en cours
JSON
Exemple terminé
JSON
Extraction sans schéma
prompt
. Le modèle sous-jacent choisira une structure pour vous, ce qui peut être utile pour des requêtes plus exploratoires ou plus flexibles.
JSON
Améliorer les résultats avec la recherche web
enableWebSearch = true
dans votre requête étend l’exploration au-delà de l’ensemble d’URL fourni. Cela permet de récupérer des informations complémentaires ou liées depuis des pages référencées.
Voici un exemple qui extrait des informations sur les caméras embarquées (dash cams), en enrichissant les résultats avec des données issues de pages connexes :
Exemple de réponse avec recherche web
JSON
Extraire sans URL
/extract
prend désormais en charge l’extraction de données structurées à l’aide d’un prompt, sans avoir besoin d’URL spécifiques. C’est utile pour la recherche ou lorsque les URL exactes ne sont pas connues. Actuellement en alpha.
Limitations connues (bêta)
-
Couverture de sites à grande échelle
La couverture complète de sites très volumineux (p. ex. « tous les produits sur Amazon ») en une seule requête n’est pas encore prise en charge. -
Requêtes logiques complexes
Des requêtes comme « trouver toutes les publications de 2025 » peuvent ne pas renvoyer de manière fiable toutes les données attendues. Des capacités de requête plus avancées sont en cours de développement. -
Incohérences occasionnelles
Les résultats peuvent varier d’une exécution à l’autre, en particulier pour les sites très vastes ou dynamiques. En général, les informations essentielles sont capturées, mais des variations sont possibles. -
État bêta
Comme/extract
est encore en bêta, les fonctionnalités et les performances continueront d’évoluer. Nous accueillons les signalements de bugs et vos retours pour nous aider à nous améliorer.
Utiliser FIRE-1
/extract
pour des tâches d’extraction complexes nécessitant une navigation sur plusieurs pages ou une interaction avec des éléments.
Exemple (cURL) :
FIRE-1 est déjà disponible et accessible en avant-première.