Formatos de documentos suportados
-
Planilhas do Excel (
.xlsx
,.xls
)- Cada planilha é convertida em uma tabela HTML
- As planilhas são separadas por títulos H2 com o nome da aba
- Preserva a formatação das células e os tipos de dados
-
Documentos do Word (
.docx
,.doc
,.odt
,.rtf
)- Extrai o conteúdo de texto preservando a estrutura do documento
- Mantém títulos, parágrafos, listas e tabelas
- Preserva formatação e estilos básicos
-
Documentos PDF (
.pdf
)- Extrai o conteúdo de texto com informações de layout
- Preserva a estrutura do documento, incluindo seções e parágrafos
- Lida com PDFs baseados em texto e digitalizados (com suporte a OCR)
- Custa 1 crédito por página. Consulte a tabela de preços para detalhes.
Como usar a análise de documentos
Exemplo: Fazendo scraping de um arquivo Excel
Node
Exemplo: Extraindo um documento do Word
Node