Saltar al contenido principal
Firecrawl ofrece potentes capacidades de análisis de documentos que te permiten extraer contenido estructurado de diversos formatos. Esta función es especialmente útil para procesar archivos como hojas de cálculo, documentos de Word y más.

Formatos de documentos compatibles

Firecrawl actualmente admite los siguientes formatos de documentos:
  • Hojas de cálculo de Excel (.xlsx, .xls)
    • Cada hoja de cálculo se convierte en una tabla HTML
    • Las hojas se separan con encabezados H2 con el nombre de la hoja
    • Conserva el formato de las celdas y los tipos de datos
  • Documentos de Word (.docx, .doc, .odt, .rtf)
    • Extrae el contenido de texto preservando la estructura del documento
    • Mantiene encabezados, párrafos, listas y tablas
    • Conserva el formato y el estilo básicos
  • Documentos PDF (.pdf)
    • Extrae el contenido de texto con información de diseño
    • Conserva la estructura del documento, incluidas secciones y párrafos
    • Procesa tanto PDFs basados en texto como escaneados (con OCR)
    • Precio de 1 crédito por página. Consulta la tarifa para más detalles.

Cómo usar el análisis de documentos

El análisis de documentos en Firecrawl se ejecuta automáticamente cuando proporcionas una URL que apunte a un tipo de documento compatible. El sistema detectará el tipo de archivo según la extensión de la URL o el encabezado Content-Type y lo procesará en consecuencia.

Ejemplo: Raspado de un archivo de Excel

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-TU-CLAVE-API" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

Ejemplo: extracción de un documento de Word

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-TU-CLAVE-API" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

Formato de salida

Todos los tipos de documentos compatibles se convierten en Markdown limpio y estructurado. Por ejemplo, un archivo de Excel con varias hojas podría convertirse en:
## Hoja1

| Nombre | Valor |
|--------|-------|
| Elemento 1 | 100   |
| Elemento 2 | 200   |

## Hoja2

| Fecha      | Descripción  |
|------------|--------------|
| 2023-01-01 | Primer trimestre|
I