Présentation de /parse
/parse convertit des documents locaux ou non accessibles au public en données propres, prêtes à être exploitées par des LLM. Envoyez le fichier via multipart/form-data et récupérez du Markdown, du JSON, du HTML, des liens, des images ou un résumé — tout en préservant l’ordre de lecture et les tableaux.
- Convertissez des PDF, DOCX, XLSX, HTML et bien plus en Markdown ou en JSON structuré
- Analyse jusqu’à 5x plus rapide grâce à un moteur basé sur Rust
- Fichiers jusqu’à 50 MB par requête
- Prise en charge de Zero Data Retention
Quand utiliser /parse
/parse lorsque le document source est un fichier local ou n’est pas accessible publiquement via une URL. Si vous disposez d’une URL publique pointant vers un document, privilégiez /scrape — il détecte automatiquement le type de fichier à partir de l’extension ou du type de contenu, puis le traite de la même manière.
| Source | Point de terminaison |
|---|---|
URL publique vers un document (p. ex. https://example.com/report.pdf) | POST /scrape |
| Fichier local ou octets non publics (PDF, DOCX, XLSX, HTML, …) | POST /parse |
Parsing
Point de terminaison /parse
multipart/form-data, avec une partie file requise et une partie JSON options facultative.
Extensions prises en charge : .html, .htm, .pdf, .docx, .doc, .odt, .rtf, .xlsx, .xls.
Utilisation
Réponse
Options
/parse accepte un sous-ensemble des options de scrape dans le champ options. Paramètres courants :
formats: tableau de formats de sortie. Valeur par défaut :["markdown"]. Pris en charge :markdown,html,rawHtml,links,images,summaryetjson(avec un schéma ou un prompt).onlyMainContent: renvoie uniquement le contenu principal du document. Valeur par défaut :true.includeTags/excludeTags: inclusion ou exclusion au niveau des balises (éléments HTML).timeout: délai d’expiration de la requête en millisecondes. Valeur par défaut :30000, maximum300000.parsers: paramètres du parseur de fichiers. Pour les PDF, définissez{ "type": "pdf", "mode": "fast" | "auto" | "ocr", "maxPages": <int> }.
/parse ne prend pas en charge les options réservées au navigateur comme actions, waitFor, location, mobile ou le suivi des modifications.Modes du parseur PDF
cURL
fast: extraction de texte uniquement, option la plus rapide.auto(par défaut) : priorité au texte avec recours à l’OCR pour les pages composées uniquement d’images.ocr: OCR sur chaque page — à utiliser pour les documents numérisés.
Sortie JSON structurée
cURL
Considérations
- La taille maximale de fichier est de 50 MB par requête.
- L’analyse de PDF très volumineux ou numérisés en mode
ocrpeut prendre plus de temps — augmenteztimeoutou utilisezmaxPagespour limiter le traitement. - Pour des lots de fichiers, appelez
/parsepour chaque fichier en parallèle ; il n’existe pas d’option de téléversement par lot.
Êtes-vous un agent IA qui a besoin d’une clé API Firecrawl ? Consultez firecrawl.dev/agent-onboarding/SKILL.md pour obtenir des instructions d’intégration automatisée.

