Passer au contenu principal

Présentation de /parse

Le point de terminaison /parse convertit des documents locaux ou non accessibles au public en données propres, prêtes à être exploitées par des LLM. Envoyez le fichier via multipart/form-data et récupérez du Markdown, du JSON, du HTML, des liens, des images ou un résumé — tout en préservant l’ordre de lecture et les tableaux.
  • Convertissez des PDF, DOCX, XLSX, HTML et bien plus en Markdown ou en JSON structuré
  • Analyse jusqu’à 5x plus rapide grâce à un moteur basé sur Rust
  • Fichiers jusqu’à 50 MB par requête
  • Prise en charge de Zero Data Retention

Quand utiliser /parse

Utilisez /parse lorsque le document source est un fichier local ou n’est pas accessible publiquement via une URL. Si vous disposez d’une URL publique pointant vers un document, privilégiez /scrape — il détecte automatiquement le type de fichier à partir de l’extension ou du type de contenu, puis le traite de la même manière.
SourcePoint de terminaison
URL publique vers un document (p. ex. https://example.com/report.pdf)POST /scrape
Fichier local ou octets non publics (PDF, DOCX, XLSX, HTML, …)POST /parse

Parsing

Point de terminaison /parse

Permet de téléverser un fichier et d’obtenir son contenu analysé. La requête est au format multipart/form-data, avec une partie file requise et une partie JSON options facultative. Extensions prises en charge : .html, .htm, .pdf, .docx, .doc, .odt, .rtf, .xlsx, .xls.

Utilisation

from firecrawl import Firecrawl

firecrawl = Firecrawl(api_key="fc-YOUR-API-KEY")

doc = firecrawl.parse("./report.pdf")

print(doc.markdown)

Réponse

Les SDK renvoient directement l’objet document. cURL renvoie le payload JSON.
{
  "success": true,
  "data": {
    "markdown": "# Annual Report\n\n...",
    "metadata": {
      "title": "Annual Report",
      "numPages": 42,
      "sourceFile": "report.pdf"
    }
  }
}

Options

/parse accepte un sous-ensemble des options de scrape dans le champ options. Paramètres courants :
  • formats : tableau de formats de sortie. Valeur par défaut : ["markdown"]. Pris en charge : markdown, html, rawHtml, links, images, summary et json (avec un schéma ou un prompt).
  • onlyMainContent : renvoie uniquement le contenu principal du document. Valeur par défaut : true.
  • includeTags / excludeTags : inclusion ou exclusion au niveau des balises (éléments HTML).
  • timeout : délai d’expiration de la requête en millisecondes. Valeur par défaut : 30000, maximum 300000.
  • parsers : paramètres du parseur de fichiers. Pour les PDF, définissez { "type": "pdf", "mode": "fast" | "auto" | "ocr", "maxPages": <int> }.
/parse ne prend pas en charge les options réservées au navigateur comme actions, waitFor, location, mobile ou le suivi des modifications.

Modes du parseur PDF

cURL
curl -X POST https://api.firecrawl.dev/v2/parse \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -F 'file=@./scan.pdf' \
  -F 'options={"parsers":[{"type":"pdf","mode":"ocr","maxPages":50}]};type=application/json'
  • fast : extraction de texte uniquement, option la plus rapide.
  • auto (par défaut) : priorité au texte avec recours à l’OCR pour les pages composées uniquement d’images.
  • ocr : OCR sur chaque page — à utiliser pour les documents numérisés.

Sortie JSON structurée

Fournissez un schéma JSON ou un prompt pour extraire des données structurées directement du document :
cURL
curl -X POST https://api.firecrawl.dev/v2/parse \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -F 'file=@./invoice.pdf' \
  -F 'options={"formats":[{"type":"json","schema":{"type":"object","properties":{"total":{"type":"number"},"vendor":{"type":"string"}}}}]};type=application/json'

Considérations

  • La taille maximale de fichier est de 50 MB par requête.
  • L’analyse de PDF très volumineux ou numérisés en mode ocr peut prendre plus de temps — augmentez timeout ou utilisez maxPages pour limiter le traitement.
  • Pour des lots de fichiers, appelez /parse pour chaque fichier en parallèle ; il n’existe pas d’option de téléversement par lot.
Êtes-vous un agent IA qui a besoin d’une clé API Firecrawl ? Consultez firecrawl.dev/agent-onboarding/SKILL.md pour obtenir des instructions d’intégration automatisée.