Installation
Node
Utilisation
- Récupérez une clé d’API sur firecrawl.dev
- Définissez la clé d’API comme variable d’environnement nommée
FIRECRAWL_API_KEY, ou transmettez-la en paramètre à la classeFirecrawlApp.
Node
Scraper une URL
scrapeUrl. Elle prend l’URL en paramètre et renvoie les données récupérées sous forme de dictionnaire.
Node.js
Explorer un site web
crawlUrl. Elle prend en arguments l’URL de départ et des paramètres optionnels. L’argument params vous permet de définir des options supplémentaires pour la tâche d’exploration, comme le nombre maximal de pages à explorer, les domaines autorisés et le format de sortie. Voir Pagination pour la pagination automatique/manuelle et la limitation.
Node.js
Démarrer un crawl
startCrawl. Elle renvoie un ID de tâche que vous pouvez utiliser pour vérifier l’état. Utilisez crawl si vous voulez un « waiter » qui bloque jusqu’à la fin. Voir Pagination pour le comportement de pagination et les limites.
Node
Vérifier l’état du crawl
checkCrawlStatus. Elle prend l’ID en paramètre et renvoie l’état actuel du job de crawl.
Node
Annuler un crawl
cancelCrawl. Elle prend l’ID de la tâche lancée par startCrawl en paramètre et renvoie l’état de l’annulation.
Node
Cartographier un site web
mapUrl. Elle prend l’URL de départ en paramètre et renvoie les données cartographiées sous forme de dictionnaire.
Node.js
Explorer un site web avec WebSockets
crawlUrlAndWatch. Elle prend en arguments l’URL de départ et des paramètres optionnels. L’argument params permet de définir des options supplémentaires pour le job d’exploration, comme le nombre maximal de pages à explorer, les domaines autorisés et le format de sortie.
Node
Pagination
next lorsqu’il reste des données. Le SDK Node effectue, par défaut, une pagination automatique et agrège tous les documents ; dans ce cas, next vaut null. Vous pouvez désactiver la pagination automatique ou définir des limites.
Crawl
crawl pour la solution la plus simple, ou démarrez un job et paginez manuellement.
Exploration simple (pagination automatique, par défaut)
- Voir le flux par défaut dans Exploration d’un site web.
Crawl manuel avec contrôle de la pagination (page unique)
- Lancez un job, puis récupérez les pages une par une avec
autoPaginate: false.
Node
Exploration manuelle avec limites (pagination automatique + arrêt anticipé)
- Conservez la pagination automatique activée, mais arrêtez plus tôt avec
maxPages,maxResultsoumaxWaitTime.
Node
Scrape par lots
batchScrape, ou lancez un job et paginez manuellement.
Collecte par lots simple (pagination automatique, par défaut)
- Voir le flux par défaut dans Batch Scrape.
Scraping par lots manuel avec contrôle de la pagination (page unique)
- Lancez un job, puis récupérez les pages une par une avec
autoPaginate: false.
Node
Scrape manuel par lots avec limites (pagination automatique + arrêt anticipé)
- Laissez la pagination automatique activée, mais arrêtez plus tôt avec
maxPages,maxResultsoumaxWaitTime.
Node
Gestion des erreurs
try/catch.
