Pular para o conteúdo principal
O Firecrawl oferece recursos poderosos de parsing de documentos, permitindo extrair conteúdo estruturado de diversos formatos. Esse recurso é particularmente útil para processar arquivos como planilhas, documentos do Word e muito mais.

Formatos de documentos suportados

Atualmente, o Firecrawl oferece suporte aos seguintes formatos de documentos:
  • Planilhas do Excel (.xlsx, .xls)
    • Cada planilha é convertida em uma tabela HTML
    • As planilhas são separadas por títulos H2 com o nome da aba
    • Preserva a formatação das células e os tipos de dados
  • Documentos do Word (.docx, .doc, .odt, .rtf)
    • Extrai o conteúdo de texto preservando a estrutura do documento
    • Mantém títulos, parágrafos, listas e tabelas
    • Preserva formatação e estilos básicos
  • Documentos PDF (.pdf)
    • Extrai o conteúdo de texto com informações de layout
    • Preserva a estrutura do documento, incluindo seções e parágrafos
    • Lida com PDFs baseados em texto e digitalizados (com suporte a OCR)
    • Custa 1 crédito por página. Consulte a tabela de preços para detalhes.

Como usar a análise de documentos

A análise de documentos no Firecrawl é automática quando você fornece uma URL que aponta para um tipo de documento compatível. O sistema detecta o tipo de arquivo com base na extensão da URL ou no cabeçalho Content-Type e o processa conforme necessário.

Exemplo: Fazendo scraping de um arquivo Excel

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-SUA-CHAVE-API" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

Exemplo: Extraindo um documento do Word

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-SUA-CHAVE-API" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

Formato de saída

Todos os tipos de documentos compatíveis são convertidos em Markdown limpo e estruturado. Por exemplo, um arquivo Excel com várias planilhas pode ser convertido em:
## Planilha1

| Nome  | Valor |
|-------|-------|
| Item 1 | 100   |
| Item 2 | 200   |

## Planilha2

| Data       | Descrição    |
|------------|--------------|
| 2023-01-01 | Primeiro trimestre|
I