Formatos de documentos compatibles
-
Hojas de cálculo de Excel (
.xlsx,.xls)- Cada hoja de cálculo se convierte en una tabla HTML
- Las hojas se separan con encabezados H2 con el nombre de la hoja
- Conserva el formato de las celdas y los tipos de datos
-
Documentos de Word (
.docx,.doc,.odt,.rtf)- Extrae el contenido de texto preservando la estructura del documento
- Mantiene encabezados, párrafos, listas y tablas
- Conserva el formato y el estilo básicos
-
Documentos PDF (
.pdf)- Extrae el contenido de texto con información de diseño
- Conserva la estructura del documento, incluidas secciones y párrafos
- Procesa tanto PDFs basados en texto como escaneados (con OCR)
- Admite la opción
modepara controlar la estrategia de análisis:fast(solo texto),auto(texto con fallback a OCR, por defecto) oocr(forzar OCR) - Precio de 1 crédito por página. Consulta la tarifa para más detalles.
Modos de análisis de PDF
parsers para controlar cómo se procesan los PDF:
| Modo | Descripción |
|---|---|
auto | Intenta primero una extracción rápida basada en texto y recurre a OCR si es necesario. Este es el valor predeterminado. |
fast | Análisis solo basado en texto (texto incrustado). Es la opción más rápida, pero no extraerá texto de páginas escaneadas o con muchas imágenes. |
ocr | Fuerza el análisis por OCR en cada página. Úsalo para documentos escaneados o cuando auto clasifique incorrectamente una página. |
Cómo usar el análisis de documentos
Ejemplo: Raspado de un archivo de Excel
Node
Ejemplo: extracción de un documento de Word
Node

