Presentamos /parse
/parse convierte documentos locales o privados en datos limpios y listos para LLM. Sube el archivo en bytes mediante multipart/form-data y recibe Markdown, JSON, HTML, enlaces, imágenes o un resumen, manteniendo el orden de lectura y las tablas.
- Convierte PDF, DOCX, XLSX, HTML y más en Markdown o JSON estructurado
- Procesamiento hasta 5 veces más rápido con un motor basado en Rust
- Archivos de hasta 50 MB por solicitud
- Compatibilidad con retención de datos cero
Cuándo usar /parse
/parse cuando el documento de origen sea un archivo local o no sea accesible públicamente por URL. Si tienes una URL pública que apunta a un documento, es preferible usar /scrape: detecta automáticamente el tipo de archivo a partir de la extensión o del tipo de contenido, y lo procesa de la misma forma.
| Origen | Endpoint |
|---|---|
URL pública de un documento (p. ej., https://example.com/report.pdf) | POST /scrape |
| Archivo local o bytes no públicos (PDF, DOCX, XLSX, HTML, …) | POST /parse |
Parseo
endpoint /parse
multipart/form-data, con una parte file obligatoria y una parte JSON options opcional.
Extensiones compatibles: .html, .htm, .pdf, .docx, .doc, .odt, .rtf, .xlsx, .xls.
Uso
Respuesta
Opciones
/parse acepta un subconjunto de las opciones de scraping en el campo options. Ajustes comunes:
formats: array de formatos de salida. El valor predeterminado es["markdown"]. Admitidos:markdown,html,rawHtml,links,images,summaryyjson(con un schema o prompt).onlyMainContent: Solo devuelve el contenido principal del documento. El valor predeterminado estrue.includeTags/excludeTags: Inclusión o exclusión por etiqueta (entradas HTML).timeout: Tiempo de espera de la solicitud en milisegundos. El valor predeterminado es30000; el máximo,300000.parsers: Opciones del analizador de archivos. Para PDF, establece{ "type": "pdf", "mode": "fast" | "auto" | "ocr", "maxPages": <int> }.
/parse no admite opciones exclusivas del navegador como actions, waitFor, location, mobile o seguimiento de cambios.Modos del analizador de PDF
cURL
fast: extracción solo de texto, la opción más rápida.auto(predeterminado): prioriza el texto y usa OCR como alternativa en páginas que solo contienen imágenes.ocr: aplica OCR a cada página — úsalo para documentos escaneados.
Salida JSON estructurada
cURL
Consideraciones
- El tamaño máximo de archivo es de 50 MB por solicitud.
- Procesar archivos PDF muy grandes o escaneados en modo
ocrpuede tardar más; aumentatimeouto usamaxPagespara limitar el procesamiento. - Para lotes de archivos, llama a
/parsepor archivo en paralelo; no existe una variante de carga por lote.
¿Eres un agente de IA que necesita una API key de Firecrawl? Consulta firecrawl.dev/agent-onboarding/SKILL.md para ver las instrucciones de incorporación automatizada.

