Mudança na API v2: A extração de schema JSON é totalmente suportada na v2, mas o formato da API mudou. Na v2, o schema é incorporado diretamente no objeto de formatos como
formats: [{type: "json", schema: {...}}]. O parâmetro jsonOptions da v1 não existe mais na v2.Raspe e extraia dados estruturados com o Firecrawl
-
Defina o esquema (opcional):
Defina um esquema JSON (no formato da OpenAI) para especificar os dados desejados, ou forneça apenas um
promptse não precisar de um esquema rígido, junto com a URL da página. - Faça a requisição: Envie sua URL e o esquema para nosso endpoint /scrape usando o modo JSON. Veja como aqui: Scrape Endpoint Documentation
- Obtenha seus dados: Receba dados limpos e estruturados que correspondem ao seu esquema, prontos para uso imediato.
Extraia dados estruturados
Modo JSON via /scrape
JSON
Dados estruturados sem esquema
prompt para o endpoint. O LLM escolhe a estrutura dos dados.
JSON
Exemplo real: extraindo informações de empresas
Output
Opções do formato JSON
formats com o esquema incorporado diretamente:
formats: [{ type: 'json', schema: { ... }, prompt: '...' }]
Parâmetros:
schema: JSON Schema que descreve a saída estruturada desejada (obrigatório para extração baseada em esquema).prompt: prompt opcional para orientar a extração (também usado para extração sem esquema).
jsonOptions na v2. O esquema deve ser incluído diretamente dentro do objeto de formato no array formats.
Atributos HTML não estão disponíveis na extração JSON. A extração JSON funciona a partir da conversão da página para markdown, que preserva apenas o conteúdo de texto visível. Atributos HTML (por exemplo,
data-id, atributos personalizados em elementos) são removidos durante a conversão e o LLM não consegue vê-los. Se você precisar extrair valores de atributos HTML, use o formato rawHtml e faça o parsing dos atributos no lado do cliente, ou use uma ação executeJavascript para injetar os valores dos atributos em texto visível antes da extração.
