Formats de documents pris en charge
-
Feuilles de calcul Excel (
.xlsx,.xls)- Chaque feuille est convertie en tableau HTML
- Les feuilles sont séparées par des titres H2 portant le nom de la feuille
- Préserve le formatage des cellules et les types de données
-
Documents Word (
.docx,.doc,.odt,.rtf)- Extrait le contenu textuel tout en préservant la structure du document
- Conserve les titres, paragraphes, listes et tableaux
- Préserve le formatage et le style de base
-
Documents PDF (
.pdf)- Extrait le contenu textuel avec les informations de mise en page
- Préserve la structure du document, y compris les sections et les paragraphes
- Prend en charge les PDF textuels et les PDF scannés (avec OCR)
- Prend en charge l’option
modepour contrôler la stratégie d’analyse :fast(texte uniquement),auto(texte avec recours à l’OCR en cas d’échec, par défaut) ouocr(forcer l’OCR) - Facturé 1 crédit par page. Voir la tarification pour plus de détails.
Modes d’analyse PDF
parsers pour contrôler le traitement des PDF :
| Mode | Description |
|---|---|
auto | Tente d’abord une extraction rapide basée sur le texte, puis bascule sur l’OCR si nécessaire. C’est l’option par défaut. |
fast | Analyse basée uniquement sur le texte (texte intégré). Option la plus rapide, mais n’extrait pas le texte des pages scannées ou contenant beaucoup d’images. |
ocr | Force l’analyse OCR sur chaque page. À utiliser pour les documents scannés ou lorsque auto se trompe dans la classification d’une page. |
Utilisation de l’analyse de documents
Exemple : extraction d’un fichier Excel
Node
Exemple : Scraper un document Word
Node

