Cambio en la API v2: La extracción de esquemas JSON está totalmente soportada en v2, pero el formato de la API ha cambiado. En v2, el esquema se incorpora directamente dentro del objeto de formatos como
formats: [{type: "json", schema: {...}}]. El parámetro jsonOptions de v1 ya no existe en v2.Rastrea y extrae datos estructurados con Firecrawl
-
Configura el esquema (opcional):
Define un esquema JSON (usando el formato de OpenAI) para especificar los datos que necesitas, o simplemente proporciona un
promptsi no requieres un esquema estricto, junto con la URL de la página. - Haz la solicitud: Envía tu URL y el esquema a nuestro punto de conexión /scrape usando el modo JSON. Mira cómo aquí: Scrape Endpoint Documentation
- Obtén tus datos: Recibe datos limpios y estructurados que coincidan con tu esquema y que puedas usar de inmediato.
Extrae datos estructurados
Modo JSON con /scrape
JSON
Datos estructurados sin esquema
prompt al punto de conexión. El LLM elige la estructura de los datos.
JSON
Ejemplo real: extracción de información de empresas
Output
Opciones del formato JSON
formats con el esquema incorporado directamente:
formats: [{ type: 'json', schema: { ... }, prompt: '...' }]
Parámetros:
schema: JSON Schema que describe la salida estructurada que deseas (obligatorio para la extracción basada en un esquema).prompt: Indicaciones opcionales para guiar la extracción (también se usa para la extracción sin esquema).
jsonOptions. El esquema debe incluirse directamente dentro del objeto de formato en el array formats.
Los atributos HTML no están disponibles en la extracción JSON. La extracción JSON funciona sobre la conversión de la página a markdown, que solo preserva el contenido de texto visible. Los atributos HTML (por ejemplo,
data-id, atributos personalizados en elementos) se eliminan durante la conversión y el LLM no puede verlos. Si necesitas extraer valores de atributos HTML, usa el formato rawHtml y analiza los atributos en el lado del cliente, o usa una acción executeJavascript para inyectar los valores de los atributos en texto visible antes de la extracción.Consejos para una extracción consistente
- Mantén los prompts cortos y enfocados. Los prompts largos con muchas reglas aumentan la variabilidad. En su lugar, mueve las restricciones específicas (como los valores permitidos) al esquema.
- Usa nombres de propiedades concisos. Evita incrustar instrucciones o listas de
enumen los nombres de las propiedades. Usa una clave corta como"installation_type"y coloca los valores permitidos en un arrayenum. - Agrega arrays
enumpara campos restringidos. Cuando un campo tiene un conjunto fijo de valores, enuméralos enenumy asegúrate de que coincidan con el texto exacto que aparece en la página. - Incluye manejo de valores null en las descripciones de los campos. Agrega
"Return null if not found on the page."a ladescriptionde cada campo para que el modelo no adivine valores faltantes. - Agrega indicaciones de ubicación. Indica al modelo dónde encontrar los datos en la página, por ejemplo:
"Flow rate in GPM from the Specifications table.". - Divide esquemas grandes en solicitudes más pequeñas. Los esquemas con muchos campos (p. ej., 30 o más) producen resultados menos consistentes. Divídelos en 2–3 solicitudes de 10–15 campos cada una.

