Passer au contenu principal
Firecrawl offre de puissantes fonctionnalités d’analyse de documents, vous permettant d’extraire du contenu structuré à partir de divers formats. Cette fonctionnalité est particulièrement utile pour traiter des fichiers comme des feuilles de calcul, des documents Word, et plus encore.

Formats de documents pris en charge

Firecrawl prend actuellement en charge les formats de documents suivants :
  • Feuilles de calcul Excel (.xlsx, .xls)
    • Chaque feuille est convertie en tableau HTML
    • Les feuilles sont séparées par des titres H2 portant le nom de la feuille
    • Préserve le formatage des cellules et les types de données
  • Documents Word (.docx, .doc, .odt, .rtf)
    • Extrait le contenu textuel tout en préservant la structure du document
    • Conserve les titres, paragraphes, listes et tableaux
    • Préserve le formatage et le style de base
  • Documents PDF (.pdf)
    • Extrait le contenu textuel avec les informations de mise en page
    • Préserve la structure du document, y compris les sections et les paragraphes
    • Prend en charge les PDF textuels et les PDF scannés (avec OCR)
    • Facturé 1 crédit par page. Voir la tarification pour plus de détails.

Utilisation de l’analyse de documents

L’analyse de documents dans Firecrawl s’effectue automatiquement lorsque vous fournissez une URL pointant vers un type de document pris en charge. Le système détecte le type de fichier à partir de l’extension de l’URL ou de l’en-tête Content-Type, puis le traite en conséquence.

Exemple : extraction d’un fichier Excel

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-VOTRE-CLE-API" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

Exemple : Scraper un document Word

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-VOTRE-CLE-API" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

Format de sortie

Tous les types de documents pris en charge sont convertis en Markdown propre et structuré. Par exemple, un fichier Excel comportant plusieurs feuilles peut être converti en :
## Feuille1

| Nom   | Valeur |
|-------|--------|
| Élément 1 | 100   |
| Élément 2 | 200   |

## Feuille2

| Date       | Description  |
|------------|--------------|
| 2023-01-01 | Premier trimestre|
I