- Il gère les complexités : proxys, mise en cache, limites de débit, contenu bloqué par JavaScript
- Prend en charge le contenu dynamique : sites dynamiques, sites rendus par JavaScript, PDF, images
- Produit un Markdown propre, des données structurées, des captures d’écran ou du HTML.
Extraire le contenu d’une URL avec Firecrawl
point de terminaison /scrape
Installation
Utilisation
Réponse
Formats de scraping
- Markdown (
markdown) - Résumé (
summary) - HTML (
html) - HTML brut (
rawHtml) (sans modification) - Capture d’écran (
screenshot, avec des options commefullPage,quality,viewport) - Liens (
links) - JSON (
json) - sortie structurée - Images (
images) - extrait toutes les URL d’images de la page - Branding (
branding) - extrait l’identité de marque et le design system
Extraire l’identité de marque
endpoint /scrape (avec branding)
Réponse
Le format d’habillage de marque retourne un objetBrandingProfile complet avec la structure suivante :
Output
Structure du profil de marque
branding contient les propriétés suivantes :
colorScheme: Schéma de couleurs détecté (« light » ou « dark »)logo: URL du logo principalcolors: Objet contenant les couleurs de la marque :primary,secondary,accent: Couleurs principales de la marquebackground,textPrimary,textSecondary: Couleurs de l’interfacelink,success,warning,error: Couleurs sémantiques
fonts: Tableau des familles de polices utilisées sur la pagetypography: Informations détaillées sur la typographie :fontFamilies: Familles de polices principales, titres et codefontSizes: Définitions des tailles pour les titres et le corps du textefontWeights: Définitions des graisses (light, regular, medium, bold)lineHeights: Valeurs d’interlignage pour différents types de texte
spacing: Informations sur les espacements et la mise en page :baseUnit: Unité d’espacement de base en pixelsborderRadius: Rayon de bordure par défautpadding,margins: Valeurs d’espacement
components: Styles des composants d’interface :buttonPrimary,buttonSecondary: Styles des boutonsinput: Styles des champs de saisie
icons: Informations sur le style des icônesimages: Images de la marque (logo, favicon, og:image)animations: Paramètres d’animation et de transitionlayout: Configuration de la mise en page (grille, hauteurs d’en-tête/pied de page)personality: Traits de personnalité de la marque (ton, énergie, public cible)
Combiner avec d’autres formats
Extraire des données structurées
Point de terminaison /scrape (avec json)
JSON
Extraction sans schéma
prompt au point de terminaison. Le LLM choisit la structure des données.
JSON
Options du format JSON
json, passez un objet dans formats avec les paramètres suivants :
schema: schéma JSON pour la sortie structurée.prompt: invite facultative pour orienter l’extraction lorsqu’un schéma est présent ou lorsque vous souhaitez un guidage léger.
Interagir avec la page à l’aide des actions
wait avant et après l’exécution d’autres actions afin de laisser suffisamment de temps au chargement de la page.
Exemple
Résultat
Localisation et langue
Fonctionnement
Utilisation
location dans le corps de votre requête avec les propriétés suivantes :
country: code pays ISO 3166-1 alpha-2 (p. ex. « US », « AU », « DE », « JP »). Par défaut : « US ».languages: un tableau des langues et paramètres régionaux préférés pour la requête, par ordre de priorité. Par défaut : la langue de la localisation spécifiée.
Mise en cache et maxAge
- Fenêtre de fraîcheur par défaut :
maxAge = 172800000ms (2 jours). Si une page en cache est plus récente que ce délai, elle est renvoyée instantanément ; sinon, la page est explorée puis mise en cache. - Performances : cela peut accélérer les scrapes jusqu’à 5x lorsque les données n’ont pas besoin d’être ultra fraîches.
- Toujours récupérer du contenu frais : définissez
maxAgeà0. - Éviter le stockage : définissez
storeInCachesurfalsesi vous ne voulez pas que Firecrawl mette en cache/stocke les résultats pour cette requête.
Extraction par lots de plusieurs URL
Fonctionnement
/crawl. Il lance un job de scraping par lot et renvoie un ID de job pour en vérifier l’état.
Le SDK propose deux méthodes, synchrone et asynchrone. La méthode synchrone renvoie les résultats du job de scraping par lot, tandis que la méthode asynchrone renvoie un ID de job que vous pouvez utiliser pour en suivre l’état.
Utilisation
Réponse
Synchrone
Terminé
Asynchrone
/batch/scrape/{id}. Ce point de terminaison est destiné à être utilisé pendant l’exécution de la tâche ou juste après son achèvement, car les tâches de batch scrape expirent après 24 heures.

