Changement de l’API v2 : L’extraction de schémas JSON est entièrement prise en charge en v2, mais le format de l’API a changé. En v2, le schéma est directement intégré dans l’objet formats sous la forme
formats: [{type: "json", schema: {...}}]. Le paramètre jsonOptions de la v1 n’existe plus en v2.Extraire et structurer des données avec Firecrawl
-
Définir le schéma (optionnel) :
Définissez un schéma JSON (au format OpenAI) pour préciser les données souhaitées, ou fournissez simplement un
promptsi vous n’avez pas besoin d’un schéma strict, ainsi que l’URL de la page web. - Envoyer la requête : Envoyez votre URL et votre schéma au point de terminaison /scrape en utilisant le mode JSON. Découvrez comment ici : Scrape Endpoint Documentation
- Récupérer vos données : Recevez des données propres et structurées correspondant à votre schéma, prêtes à l’emploi.
Extraire des données structurées
Mode JSON via /scrape
JSON
Données structurées sans schéma
prompt au point de terminaison. Le LLM détermine la structure des données.
JSON
Exemple concret : extraction d’informations d’entreprise
Output
Options du format JSON
formats avec le schéma directement intégré :
formats: [{ type: 'json', schema: { ... }, prompt: '...' }]
Paramètres :
schema: schéma JSON décrivant la sortie structurée souhaitée (obligatoire pour l’extraction basée sur un schéma).prompt: invite facultative pour guider l’extraction (également utilisée pour l’extraction sans schéma).
jsonOptions dans la v2. Le schéma doit être inclus directement dans l’objet de format du tableau formats.
Les attributs HTML ne sont pas accessibles dans l’extraction JSON. L’extraction JSON s’applique à la conversion de la page en markdown, qui ne préserve que le contenu textuel visible. Les attributs HTML (par exemple,
data-id, attributs personnalisés sur les éléments) sont supprimés lors de la conversion et le LLM ne peut pas les voir. Si vous devez extraire des valeurs d’attribut HTML, utilisez le format rawHtml et analysez les attributs côté client, ou utilisez une action executeJavascript pour injecter les valeurs d’attribut dans le texte visible avant l’extraction.
