Formats de documents pris en charge
-
Feuilles de calcul Excel (
.xlsx
,.xls
)- Chaque feuille est convertie en tableau HTML
- Les feuilles sont séparées par des titres H2 portant le nom de la feuille
- Préserve le formatage des cellules et les types de données
-
Documents Word (
.docx
,.doc
,.odt
,.rtf
)- Extrait le contenu textuel tout en préservant la structure du document
- Conserve les titres, paragraphes, listes et tableaux
- Préserve le formatage et le style de base
-
Documents PDF (
.pdf
)- Extrait le contenu textuel avec les informations de mise en page
- Préserve la structure du document, y compris les sections et les paragraphes
- Prend en charge les PDF textuels et les PDF scannés (avec OCR)
- Facturé 1 crédit par page. Voir la tarification pour plus de détails.
Utilisation de l’analyse de documents
Exemple : extraction d’un fichier Excel
Node
Exemple : Scraper un document Word
Node