Analyse de documents

Firecrawl offre de puissantes fonctionnalités d’analyse de documents, vous permettant d’extraire du contenu structuré à partir de divers formats. Cette fonctionnalité est particulièrement utile pour traiter des fichiers comme des feuilles de calcul, des documents Word, et plus encore.

Formats de documents pris en charge

Firecrawl prend actuellement en charge les formats de documents suivants :

Feuilles de calcul Excel (.xlsx, .xls)
- Chaque feuille est convertie en tableau HTML
- Les feuilles sont séparées par des titres H2 portant le nom de la feuille
- Préserve le formatage des cellules et les types de données
Documents Word (.docx, .doc, .odt, .rtf)
- Extrait le contenu textuel tout en préservant la structure du document
- Conserve les titres, paragraphes, listes et tableaux
- Préserve le formatage et le style de base
Documents PDF (.pdf)
- Extrait le contenu textuel avec les informations de mise en page
- Préserve la structure du document, y compris les sections et les paragraphes
- Prend en charge les PDF textuels et les PDF scannés (avec OCR)
- Prend en charge l’option mode pour contrôler la stratégie d’analyse : fast (texte uniquement), auto (texte avec recours à l’OCR en cas d’échec, par défaut) ou ocr (forcer l’OCR)
- Facturé 1 crédit par page. Voir la tarification pour plus de détails.

Modes d’analyse PDF

Utilisez l’option parsers pour contrôler le traitement des PDF :

Mode	Description
`auto`	Tente d’abord une extraction rapide basée sur le texte, puis bascule sur l’OCR si nécessaire. C’est l’option par défaut.
`fast`	Analyse basée uniquement sur le texte (texte intégré). Option la plus rapide, mais n’extrait pas le texte des pages scannées ou contenant beaucoup d’images.
`ocr`	Force l’analyse OCR sur chaque page. À utiliser pour les documents scannés ou lorsque `auto` se trompe dans la classification d’une page.

// Syntaxe objet avec mode
parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]

// Par défaut (mode auto)
parsers: [{ type: "pdf" }]

Comment utiliser l’analyse de documents

L’analyse de documents dans Firecrawl fonctionne de deux façons :

Analyse à partir d’une URL (/v2/scrape) : fournissez une URL pointant vers un type de document pris en charge.
Analyse par téléversement de fichier (/v2/parse) : téléversez directement le contenu binaire du fichier avec multipart/form-data.

Pour l’analyse à partir d’une URL, Firecrawl détecte automatiquement le type de fichier à partir de l’extension ou du type de contenu.

Importer des documents avec `/v2/parse`

Utilisez /v2/parse lorsque le document source est local ou n’est pas accessible publiquement via une URL.

curl -X POST "https://api.firecrawl.dev/v2/parse" \
  -H "Authorization: Bearer fc-YOUR-API-KEY" \
  -F 'options={"formats":["markdown"]}' \
  -F "file=@./document.docx;type=application/vnd.openxmlformats-officedocument.wordprocessingml.document"

import { Firecrawl } from "firecrawl";

const app = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await app.parse(
  {
    data: "<html><body><h1>Upload Parse</h1></body></html>",
    filename: "upload.html",
    contentType: "text/html",
  },
  { formats: ["markdown"] },
);

console.log(doc.markdown);

from firecrawl import Firecrawl
from firecrawl.v2.types import ScrapeOptions

app = Firecrawl(api_key="fc-YOUR-API-KEY")
doc = app.parse(
    b"<!DOCTYPE html><html><body><h1>Upload Parse</h1></body></html>",
    filename="upload.html",
    content_type="text/html",
    options=ScrapeOptions(formats=["markdown"]),
)
print(doc.markdown)

Exemple : extraction d’un fichier Excel

Node

import { Firecrawl } from 'firecrawl';

const firecrawl = new Firecrawl({
  // Aucune clé API requise pour démarrer — ajoutez-en une pour des limites de débit plus élevées :
  // apiKey: "fc-YOUR-API-KEY",
});

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

Exemple : Scraper un document Word

Node

import { Firecrawl } from 'firecrawl';

const firecrawl = new Firecrawl({
  // Aucune clé API requise pour démarrer — ajoutez-en une pour des limites de débit plus élevées :
  // apiKey: "fc-YOUR-API-KEY",
});

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

Format de sortie

Tous les types de documents pris en charge sont convertis en Markdown propre et structuré. Par exemple, un fichier Excel comportant plusieurs feuilles peut être converti en :

## Feuille1

| Nom   | Valeur |
|-------|--------|
| Élément 1 | 100   |
| Élément 2 | 200   |

## Feuille2

| Date       | Description  |
|------------|--------------|
| 2023-01-01 | Premier trimestre|

Êtes-vous un agent IA ayant besoin d’une clé API Firecrawl ? Consultez firecrawl.dev/agent-onboarding/SKILL.md pour obtenir des instructions d’intégration automatisée.

Prise en main

Points de terminaison de base

Plus

Démarrages rapides

Guides développeur

Webhooks

Cas d'utilisation

Autres

Contribuer

Analyse de documents

Formats de documents pris en charge

Modes d’analyse PDF

Comment utiliser l’analyse de documents

Importer des documents avec `/v2/parse`

Exemple : extraction d’un fichier Excel

Exemple : Scraper un document Word

Format de sortie

​Formats de documents pris en charge

​Modes d’analyse PDF

​Comment utiliser l’analyse de documents

​Importer des documents avec /v2/parse

​Exemple : extraction d’un fichier Excel

​Exemple : Scraper un document Word

​Format de sortie

Formats de documents pris en charge

Modes d’analyse PDF

Comment utiliser l’analyse de documents

Importer des documents avec `/v2/parse`

Exemple : extraction d’un fichier Excel

Exemple : Scraper un document Word

Format de sortie