/extract
simplifica la recopilación de datos estructurados desde cualquier número de URL o dominios completos. Proporciona una lista de URL, opcionalmente con comodines (p. ej., example.com/*
), y un prompt o un esquema que describa la información que necesitas. Firecrawl se encarga del rastreo, el análisis y la compilación de conjuntos de datos, grandes o pequeños.
Extract se factura de forma diferente a otros puntos de conexión. Consulta los precios de Extract para más detalles.
Uso de /extract
- Página única
Ejemplo:https://firecrawl.dev/some-page
- Múltiples páginas / Dominio completo
Ejemplo:https://firecrawl.dev/*
/*
, Firecrawl rastreará y analizará automáticamente todas las URL que pueda descubrir en ese dominio y luego extraerá los datos solicitados. Esta función es experimental; escribe a help@firecrawl.com si tienes problemas.
Ejemplo de uso
- urls: Una lista de una o más URL. Admite comodines (
/*
) para un rastreo más amplio. - prompt (Opcional salvo que no haya schema): Un prompt en lenguaje natural que describe los datos que quieres o especifica cómo quieres estructurarlos.
- schema (Opcional salvo que no haya prompt): Una estructura más rígida si ya conoces el esquema JSON.
- enableWebSearch (Opcional): Si es
true
, la extracción puede seguir enlaces fuera del dominio especificado.
Respuesta (SDKs)
JSON
Estado del trabajo y finalización
- Obtener el estado del trabajo: Envía una solicitud al punto de conexión /extract/ para ver si el trabajo sigue en ejecución o ya finalizó.
- Esperar los resultados: Si usas el método predeterminado
extract
(Python/Node), el SDK espera y devuelve los resultados finales. - Iniciar y luego consultar: Si usas los métodos de inicio —
start_extract
(Python) ostartExtract
(Node)— el SDK devuelve un ID de trabajo de inmediato. Usaget_extract_status
(Python) ogetExtractStatus
(Node) para consultar el progreso.
Este punto de conexión solo funciona para trabajos en curso o completados recientemente (dentro de 24 horas).
Posibles estados
- completed: La extracción se completó correctamente.
- processing: Firecrawl aún está procesando tu solicitud.
- failed: Ocurrió un error; los datos no se extrajeron por completo.
- cancelled: El trabajo fue cancelado por el usuario.
Ejemplo pendiente
JSON
Ejemplo completado
JSON
Extracción sin esquema
prompt
. El modelo subyacente elegirá una estructura por ti, lo que puede ser útil para solicitudes más exploratorias o flexibles.
JSON
Mejora de resultados con búsqueda web
enableWebSearch = true
en tu solicitud ampliará el rastreo más allá del conjunto de URL proporcionado. Esto puede capturar información de respaldo o relacionada de páginas enlazadas.
Aquí tienes un ejemplo que extrae información sobre cámaras para tablero (dash cams), enriqueciendo los resultados con datos de páginas relacionadas:
Respuesta de ejemplo con búsqueda en la web
JSON
Extracción sin URLs
/extract
ahora permite extraer datos estructurados con un prompt sin necesidad de URLs específicas. Es útil para investigación o cuando se desconocen las URLs exactas. Actualmente en alfa.
Limitaciones conocidas (Beta)
-
Cobertura de sitios a gran escala
Aún no se admite cubrir por completo sitios masivos (p. ej., “todos los productos de Amazon”) en una sola solicitud. -
Consultas lógicas complejas
Solicitudes como “encontrar todas las publicaciones de 2025” pueden no devolver de forma fiable todos los datos esperados. Estamos trabajando en capacidades de consulta más avanzadas. -
Inconsistencias ocasionales
Los resultados pueden variar entre ejecuciones, especialmente en sitios muy grandes o dinámicos. Por lo general se capturan los detalles clave, pero puede haber cierta variación. -
Estado Beta
Dado que/extract
sigue en Beta, las funciones y el rendimiento continuarán evolucionando. Agradecemos los reportes de errores y comentarios para ayudarnos a mejorar.
Uso de FIRE-1
/extract
para tareas de extracción complejas que requieren navegar por varias páginas o interactuar con elementos.
Ejemplo (cURL):
FIRE-1 ya está activo y disponible en versión preliminar.