Installation
Node
Utilisation
- Récupérez une clé d’API sur firecrawl.dev
- Définissez la clé d’API comme variable d’environnement nommée
FIRECRAWL_API_KEY
, ou transmettez-la en paramètre à la classeFirecrawlApp
.
Node
Scraper une URL
scrapeUrl
. Elle prend l’URL en paramètre et renvoie les données récupérées sous forme de dictionnaire.
Node
Explorer un site web
crawlUrl
. Elle prend en arguments l’URL de départ et des paramètres optionnels. L’argument params
vous permet de définir des options supplémentaires pour la tâche d’exploration, comme le nombre maximal de pages à explorer, les domaines autorisés et le format de sortie. Voir Pagination pour la pagination automatique/manuelle et la limitation.
Node.js
Démarrer un crawl
startCrawl
. Elle renvoie un ID
de tâche que vous pouvez utiliser pour vérifier l’état. Utilisez crawl
si vous voulez un « waiter » qui bloque jusqu’à la fin. Voir Pagination pour le comportement de pagination et les limites.
Node
Vérifier l’état du crawl
checkCrawlStatus
. Elle prend l’ID en paramètre et renvoie l’état actuel du job de crawl.
Node
Annuler un crawl
cancelCrawl
. Elle prend l’ID de la tâche lancée par startCrawl
en paramètre et renvoie l’état de l’annulation.
Node
Cartographier un site web
mapUrl
. Elle prend l’URL de départ en paramètre et renvoie les données cartographiées sous forme de dictionnaire.
Node
Explorer un site web avec WebSockets
crawlUrlAndWatch
. Elle prend en arguments l’URL de départ et des paramètres optionnels. L’argument params
permet de définir des options supplémentaires pour le job d’exploration, comme le nombre maximal de pages à explorer, les domaines autorisés et le format de sortie.
Node
Pagination
next
lorsqu’il reste des données. Le SDK Node effectue, par défaut, une pagination automatique et agrège tous les documents ; dans ce cas, next
vaut null
. Vous pouvez désactiver la pagination automatique ou définir des limites.
Crawl
crawl
pour la solution la plus simple, ou démarrez un job et paginez manuellement.
Exploration simple (pagination automatique, par défaut)
- Voir le flux par défaut dans Exploration d’un site web.
Crawl manuel avec contrôle de la pagination (page unique)
- Lancez un job, puis récupérez les pages une par une avec
autoPaginate: false
.
Node
Exploration manuelle avec limites (pagination automatique + arrêt anticipé)
- Conservez la pagination automatique activée, mais arrêtez plus tôt avec
maxPages
,maxResults
oumaxWaitTime
.
Node
Scrape par lots
batchScrape
, ou lancez un job et paginez manuellement.
Collecte par lots simple (pagination automatique, par défaut)
- Voir le flux par défaut dans Batch Scrape.
Scraping par lots manuel avec contrôle de la pagination (page unique)
- Lancez un job, puis récupérez les pages une par une avec
autoPaginate: false
.
Node
Scrape manuel par lots avec limites (pagination automatique + arrêt anticipé)
- Laissez la pagination automatique activée, mais arrêtez plus tôt avec
maxPages
,maxResults
oumaxWaitTime
.
Node
Gestion des erreurs
try/catch
.