Changement de l’API v2 : L’extraction de schémas JSON est entièrement prise en charge en v2, mais le format de l’API a changé. En v2, le schéma est directement intégré dans l’objet formats sous la forme
formats: [{type: "json", schema: {...}}]. Le paramètre jsonOptions de la v1 n’existe plus en v2.Extraire et structurer des données avec Firecrawl
-
Définir le schéma (optionnel) :
Définissez un schéma JSON (au format OpenAI) pour préciser les données souhaitées, ou fournissez simplement un
promptsi vous n’avez pas besoin d’un schéma strict, ainsi que l’URL de la page web. - Envoyer la requête : Envoyez votre URL et votre schéma au point de terminaison /scrape en utilisant le mode JSON. Découvrez comment ici : Scrape Endpoint Documentation
- Récupérer vos données : Recevez des données propres et structurées correspondant à votre schéma, prêtes à l’emploi.
Extraire des données structurées
Mode JSON via /scrape
JSON
Données structurées sans schéma
prompt au point de terminaison. Le LLM détermine la structure des données.
JSON
Exemple concret : extraction d’informations d’entreprise
Output
Options du format JSON
formats avec le schéma directement intégré :
formats: [{ type: 'json', schema: { ... }, prompt: '...' }]
Paramètres :
schema: schéma JSON décrivant la sortie structurée souhaitée (obligatoire pour l’extraction basée sur un schéma).prompt: invite facultative pour guider l’extraction (également utilisée pour l’extraction sans schéma).
jsonOptions dans la v2. Le schéma doit être inclus directement dans l’objet de format du tableau formats.
Les attributs HTML ne sont pas accessibles dans l’extraction JSON. L’extraction JSON s’applique à la conversion de la page en markdown, qui ne préserve que le contenu textuel visible. Les attributs HTML (par exemple,
data-id, attributs personnalisés sur les éléments) sont supprimés lors de la conversion et le LLM ne peut pas les voir. Si vous devez extraire des valeurs d’attribut HTML, utilisez le format rawHtml et analysez les attributs côté client, ou utilisez une action executeJavascript pour injecter les valeurs d’attribut dans le texte visible avant l’extraction.Conseils pour une extraction cohérente
- Gardez les prompts courts et ciblés. Des prompts longs avec de nombreuses règles augmentent la variabilité. Placez plutôt les contraintes spécifiques (comme les valeurs autorisées) dans le schéma.
- Utilisez des noms de propriétés concis. Évitez d’inclure des instructions ou des listes d’énumération dans les noms de propriétés. Utilisez une clé courte comme
"installation_type"et placez les valeurs autorisées dans un tableauenum. - Ajoutez des tableaux
enumpour les champs contraints. Lorsqu’un champ possède un ensemble fixe de valeurs, listez-les dansenumet assurez-vous qu’elles correspondent exactement au texte affiché sur la page. - Incluez la gestion de
nulldans les descriptions de champs. Ajoutez"Return null if not found on the page."à ladescriptionde chaque champ afin que le modèle ne devine pas les valeurs manquantes. - Ajoutez des indications de localisation. Indiquez au modèle où trouver les données sur la page, par exemple :
"Flow rate in GPM from the Specifications table.". - Divisez les grands schémas en requêtes plus petites. Les schémas avec de nombreux champs (par exemple 30+) produisent des résultats moins cohérents. Divisez-les en 2–3 requêtes de 10–15 champs chacune.

