Installation
Python
Utilisation
- Récupérez une clé API sur firecrawl.dev
- Définissez la clé API comme variable d’environnement nommée FIRECRAWL_API_KEYou passez-la en paramètre à la classeFirecrawl.
Python
Extraction d’une URL
scrape. Elle prend l’URL en paramètre et renvoie le document extrait.
Python
Explorer un site web
crawl. Elle prend en arguments l’URL de départ et des options facultatives. Ces options permettent de définir des paramètres supplémentaires pour la tâche d’exploration, comme le nombre maximal de pages à parcourir, les domaines autorisés et le format de sortie. Consultez Pagination pour la pagination automatique/manuelle et les limites.
Python
Démarrer un crawl
Vous préférez ne pas bloquer l’exécution ? Consultez la section Classe Async ci-dessous.
start_crawl. Elle renvoie un ID de tâche que vous pouvez utiliser pour vérifier l’état. Utilisez crawl lorsque vous voulez un attenteur qui bloque jusqu’à la fin. Voir Pagination pour le comportement et les limites de pagination.
Python
Vérifier l’état d’un crawl
get_crawl_status. Elle prend l’ID du job en paramètre et renvoie l’état actuel du crawl.
Python
Annuler un crawl
cancel_crawl. Elle prend l’ID du job renvoyé par start_crawl en paramètre et retourne l’état de l’annulation.
Python
Cartographier un site web
map pour générer une liste d’URL à partir d’un site web. Les options permettent d’adapter le processus de cartographie, par exemple en excluant les sous-domaines ou en s’appuyant sur le sitemap.
Python
Exploration d’un site web avec WebSockets
start_crawl et abonnez-vous à l’aide du helper watcher. Créez un watcher avec l’ID de la tâche et attachez des gestionnaires (par exemple pour page, completed, failed) avant d’appeler start().
Python
Pagination
next lorsqu’il reste des données. Le SDK Python effectue par défaut une pagination automatique et agrège tous les documents ; dans ce cas, next vaut None. Vous pouvez désactiver l’auto‑pagination ou définir des limites.
Crawl
crawl pour l’approche la plus simple, ou démarrez un job et paginez manuellement.
Crawl simple (pagination automatique, par défaut)
- Voir le flux par défaut dans Explorer un site web.
Exploration manuelle avec contrôle de la pagination (page unique)
- Lancez une tâche, puis récupérez les pages une par une avec auto_paginate=False.
Python
Exploration manuelle avec limites (pagination automatique + arrêt anticipé)
- Laissez la pagination automatique activée, mais arrêtez plus tôt avec max_pages,max_resultsoumax_wait_time.
Python
Scrape par lots
batch_scrape, ou lancez un job et paginez manuellement.
Extraction par lot simple (pagination automatique, par défaut)
- Voir le parcours par défaut dans Batch Scrape.
Scraping par lots manuel avec contrôle de la pagination (page unique)
- Démarrez un job, puis récupérez une page à la fois avec auto_paginate=False.
Python
Extraction par lots manuelle avec limites (pagination automatique + arrêt anticipé)
- Laissez la pagination automatique activée, mais arrêtez plus tôt avec max_pages,max_resultsoumax_wait_time.
Python
Gestion des erreurs
Classe asynchrone
AsyncFirecrawl. Ses méthodes sont identiques à celles de Firecrawl, mais elles ne bloquent pas le thread principal.
Python

