- Il gère les complexités : proxys, mise en cache, limites de débit, contenu bloqué par JS
- Prend en charge le contenu dynamique : sites dynamiques, sites rendus par JS, PDF, images
- Génère un markdown propre, des données structurées, des captures d’écran ou du HTML.
Extraire le contenu d’une URL avec Firecrawl
point de terminaison /scrape
Installation
Utilisation
Réponse
Formats de scraping
- Markdown (
markdown
) - Résumé (
summary
) - HTML (
html
) - HTML brut (
rawHtml
) (sans modifications) - Capture d’écran (
screenshot
, avec des options commefullPage
,quality
,viewport
) - Liens (
links
) - JSON (
json
) — sortie structurée
Extraire des données structurées
Point de terminaison /scrape (avec json)
JSON
Extraction sans schéma
prompt
au point de terminaison. Le LLM choisit la structure des données.
JSON
Options du format JSON
json
, passez un objet dans formats
avec les paramètres suivants :
schema
: schéma JSON pour la sortie structurée.prompt
: invite facultative pour orienter l’extraction lorsqu’un schéma est présent ou lorsque vous souhaitez un guidage léger.
Interagir avec la page à l’aide des actions
wait
avant et après l’exécution d’autres actions afin de laisser suffisamment de temps au chargement de la page.
Exemple
Résultat
Localisation et langue
Fonctionnement
Utilisation
location
dans le corps de votre requête avec les propriétés suivantes :
country
: code pays ISO 3166-1 alpha-2 (p. ex. « US », « AU », « DE », « JP »). Par défaut : « US ».languages
: un tableau des langues et paramètres régionaux préférés pour la requête, par ordre de priorité. Par défaut : la langue de la localisation spécifiée.
Mise en cache et maxAge
- Fenêtre de fraîcheur par défaut :
maxAge = 172800000
ms (2 jours). Si une page en cache est plus récente que ce délai, elle est renvoyée instantanément ; sinon, la page est explorée puis mise en cache. - Performances : cela peut accélérer les scrapes jusqu’à 5x lorsque les données n’ont pas besoin d’être ultra fraîches.
- Toujours récupérer du contenu frais : définissez
maxAge
à0
. - Éviter le stockage : définissez
storeInCache
surfalse
si vous ne voulez pas que Firecrawl mette en cache/stocke les résultats pour cette requête.
Extraction par lots de plusieurs URL
Fonctionnement
/crawl
. Il lance un job de scraping par lot et renvoie un ID de job pour en vérifier l’état.
Le SDK propose deux méthodes, synchrone et asynchrone. La méthode synchrone renvoie les résultats du job de scraping par lot, tandis que la méthode asynchrone renvoie un ID de job que vous pouvez utiliser pour en suivre l’état.
Utilisation
Réponse
Synchrone
Terminé
Asynchrone
/batch/scrape/{id}
. Ce point de terminaison est destiné à être utilisé pendant l’exécution de la tâche ou juste après son achèvement, car les tâches de batch scrape expirent après 24 heures.