Cambio en la API v2: La extracción de esquemas JSON está totalmente soportada en v2, pero el formato de la API ha cambiado. En v2, el esquema se incorpora directamente dentro del objeto de formatos como
formats: [{type: "json", schema: {...}}]. El parámetro jsonOptions de v1 ya no existe en v2.Rastrea y extrae datos estructurados con Firecrawl
-
Configura el esquema (opcional):
Define un esquema JSON (usando el formato de OpenAI) para especificar los datos que necesitas, o simplemente proporciona un
promptsi no requieres un esquema estricto, junto con la URL de la página. - Haz la solicitud: Envía tu URL y el esquema a nuestro punto de conexión /scrape usando el modo JSON. Mira cómo aquí: Scrape Endpoint Documentation
- Obtén tus datos: Recibe datos limpios y estructurados que coincidan con tu esquema y que puedas usar de inmediato.
Extrae datos estructurados
Modo JSON con /scrape
JSON
Datos estructurados sin esquema
prompt al punto de conexión. El LLM elige la estructura de los datos.
JSON
Ejemplo real: extracción de información de empresas
Output
Opciones del formato JSON
formats con el esquema incorporado directamente:
formats: [{ type: 'json', schema: { ... }, prompt: '...' }]
Parámetros:
schema: JSON Schema que describe la salida estructurada que deseas (obligatorio para la extracción basada en un esquema).prompt: Indicaciones opcionales para guiar la extracción (también se usa para la extracción sin esquema).
jsonOptions. El esquema debe incluirse directamente dentro del objeto de formato en el array formats.
Los atributos HTML no están disponibles en la extracción JSON. La extracción JSON funciona sobre la conversión de la página a markdown, que solo preserva el contenido de texto visible. Los atributos HTML (por ejemplo,
data-id, atributos personalizados en elementos) se eliminan durante la conversión y el LLM no puede verlos. Si necesitas extraer valores de atributos HTML, usa el formato rawHtml y analiza los atributos en el lado del cliente, o usa una acción executeJavascript para inyectar los valores de los atributos en texto visible antes de la extracción.
