- Gestiona las complejidades: proxies, caché, límites de velocidad, contenido bloqueado por JS
- Maneja contenido dinámico: sitios dinámicos, sitios renderizados con JS, PDF, imágenes
- Genera markdown limpio, datos estructurados, capturas de pantalla o HTML.
Extraer datos de una URL con Firecrawl
punto de conexión /scrape
Instalación
Uso
Respuesta
Formatos de extracción
- Markdown (
markdown) - Resumen (
summary) - HTML (
html) - HTML sin procesar (
rawHtml) (sin modificaciones) - Captura de pantalla (
screenshot, con opciones comofullPage,quality,viewport) - Enlaces (
links) - JSON (
json) - salida estructurada - Imágenes (
images) - extrae todas las URL de imágenes de la página - Identidad de marca (
branding) - extrae la identidad de marca y el sistema de diseño
Extraer la identidad de la marca
endpoint /scrape (con branding)
Respuesta
El formato de marca devuelve un objetoBrandingProfile completo con la siguiente estructura:
Output
Estructura del perfil de marca
branding contiene las siguientes propiedades:
colorScheme: El esquema de color detectado (“light” o “dark”)logo: URL del logotipo principalcolors: Objeto que contiene los colores de la marca:primary,secondary,accent: Colores principales de la marcabackground,textPrimary,textSecondary: Colores de la interfazlink,success,warning,error: Colores semánticos
fonts: Lista de familias tipográficas usadas en la páginatypography: Información tipográfica detallada:fontFamilies: Familias tipográficas principal, de encabezados y de códigofontSizes: Definiciones de tamaños para encabezados y cuerpo de textofontWeights: Definiciones de grosor (light, regular, medium, bold)lineHeights: Valores de interlineado para distintos tipos de texto
spacing: Información de espaciado y maquetación:baseUnit: Unidad base de espaciado en píxelesborderRadius: Radio de borde predeterminadopadding,margins: Valores de espaciado
components: Estilos de componentes de la interfaz:buttonPrimary,buttonSecondary: Estilos de botonesinput: Estilos de campos de entrada
icons: Información sobre el estilo de los íconosimages: Imágenes de marca (logo, favicon, og:image)animations: Configuración de animaciones y transicioneslayout: Configuración de distribución (grid, alturas de encabezado/pie)personality: Rasgos de personalidad de la marca (tono, energía, público objetivo)
Combinar con otros formatos
Extrae datos estructurados
punto de conexión /scrape (con json)
JSON
Extracción sin esquema
prompt al punto de conexión. El LLM elige la estructura de los datos.
JSON
Opciones del formato JSON
json, pasa un objeto dentro de formats con los siguientes parámetros:
schema: JSON Schema para la salida estructurada.prompt: Prompt opcional para ayudar a guiar la extracción cuando hay un esquema o cuando prefieras una guía ligera.
Interacción con la página mediante acciones
wait antes y/o después de ejecutar otras acciones para dar tiempo suficiente a que la página cargue.
Ejemplo
Salida
Ubicación e idioma
Cómo funciona
Uso
location en el cuerpo de la solicitud con las siguientes propiedades:
country: código de país ISO 3166-1 alfa-2 (p. ej., ‘US’, ‘AU’, ‘DE’, ‘JP’). Por defecto: ‘US’.languages: una lista de idiomas y configuraciones regionales preferidas para la solicitud en orden de prioridad. Por defecto, usa el idioma de la ubicación especificada.
Caché y maxAge
- Ventana de frescura predeterminada:
maxAge = 172800000ms (2 días). Si la copia en caché es más reciente que esto, se devuelve al instante; de lo contrario, la página se vuelve a extraer y luego se almacena en caché. - Rendimiento: Esto puede acelerar las extracciones hasta 5× cuando los datos no necesitan estar ultra frescos.
- Obtener siempre contenido fresco: Establece
maxAgeen0. - Evitar almacenamiento: Establece
storeInCacheenfalsesi no quieres que Firecrawl almacene/guarde los resultados de esta solicitud en la caché.
Raspado por lotes de múltiples URL
Cómo funciona
/crawl. Envía un trabajo de scraping por lotes y devuelve un ID de trabajo para consultar el estado del scraping por lotes.
El SDK ofrece 2 métodos: sincrónico y asincrónico. El método sincrónico devuelve los resultados del trabajo de scraping por lotes, mientras que el asincrónico devuelve un ID de trabajo que puedes usar para consultar el estado del scraping por lotes.
Uso
Respuesta
Sincronía
Completado
Asíncrono
/batch/scrape/{id}. Este punto de conexión está pensado para usarse mientras el trabajo sigue en ejecución o justo después de que haya finalizado, ya que los trabajos de scrape por lotes expiran a las 24 horas.

