Installation
Python
Utilisation
- Récupérez une clé API sur firecrawl.dev
- Définissez la clé API comme variable d’environnement nommée
FIRECRAWL_API_KEY
ou passez-la en paramètre à la classeFirecrawl
.
Python
Extraction d’une URL
scrape
. Elle prend l’URL en paramètre et renvoie le document extrait.
Python
Explorer un site web
crawl
. Elle prend en arguments l’URL de départ et des options facultatives. Ces options permettent de définir des paramètres supplémentaires pour la tâche d’exploration, comme le nombre maximal de pages à parcourir, les domaines autorisés et le format de sortie. Consultez Pagination pour la pagination automatique/manuelle et les limites.
Python
Démarrer un crawl
Vous préférez ne pas bloquer l’exécution ? Consultez la section Classe Async ci-dessous.
start_crawl
. Elle renvoie un ID
de tâche que vous pouvez utiliser pour vérifier l’état. Utilisez crawl
lorsque vous voulez un attenteur qui bloque jusqu’à la fin. Voir Pagination pour le comportement et les limites de pagination.
Python
Vérifier l’état d’un crawl
get_crawl_status
. Elle prend l’ID du job en paramètre et renvoie l’état actuel du crawl.
Python
Annuler un crawl
cancel_crawl
. Elle prend l’ID du job renvoyé par start_crawl
en paramètre et retourne l’état de l’annulation.
Python
Cartographier un site web
map
pour générer une liste d’URL à partir d’un site web. Les options permettent d’adapter le processus de cartographie, par exemple en excluant les sous-domaines ou en s’appuyant sur le sitemap.
Python
Exploration d’un site web avec WebSockets
start_crawl
et abonnez-vous à l’aide du helper watcher
. Créez un watcher avec l’ID de la tâche et attachez des gestionnaires (par exemple pour page, completed, failed) avant d’appeler start()
.
Python
Pagination
next
lorsqu’il reste des données. Le SDK Python effectue par défaut une pagination automatique et agrège tous les documents ; dans ce cas, next
vaut None
. Vous pouvez désactiver l’auto‑pagination ou définir des limites.
Crawl
crawl
pour l’approche la plus simple, ou démarrez un job et paginez manuellement.
Crawl simple (pagination automatique, par défaut)
- Voir le flux par défaut dans Explorer un site web.
Exploration manuelle avec contrôle de la pagination (page unique)
- Lancez une tâche, puis récupérez les pages une par une avec
auto_paginate=False
.
Python
Exploration manuelle avec limites (pagination automatique + arrêt anticipé)
- Laissez la pagination automatique activée, mais arrêtez plus tôt avec
max_pages
,max_results
oumax_wait_time
.
Python
Scrape par lots
batch_scrape
, ou lancez un job et paginez manuellement.
Extraction par lot simple (pagination automatique, par défaut)
- Voir le parcours par défaut dans Batch Scrape.
Scraping par lots manuel avec contrôle de la pagination (page unique)
- Démarrez un job, puis récupérez une page à la fois avec
auto_paginate=False
.
Python
Extraction par lots manuelle avec limites (pagination automatique + arrêt anticipé)
- Laissez la pagination automatique activée, mais arrêtez plus tôt avec
max_pages
,max_results
oumax_wait_time
.
Python
Gestion des erreurs
Classe asynchrone
AsyncFirecrawl
. Ses méthodes sont identiques à celles de Firecrawl
, mais elles ne bloquent pas le thread principal.
Python