- Se encarga de las complejidades: proxies, caché, límites de tasa, contenido bloqueado por JS
- Maneja contenido dinámico: sitios dinámicos, páginas renderizadas con JS, PDFs, imágenes
- Produce markdown limpio, datos estructurados, capturas de pantalla o HTML.
Extraer datos de una URL con Firecrawl
punto de conexión /scrape
Instalación
Uso
Respuesta
Formatos de extracción
- Markdown (
markdown
) - Resumen (
summary
) - HTML (
html
) - HTML sin procesar (
rawHtml
) (sin modificaciones) - Captura de pantalla (
screenshot
, con opciones comofullPage
,quality
,viewport
) - Enlaces (
links
) - JSON (
json
) - salida estructurada
Extrae datos estructurados
punto de conexión /scrape (con json)
JSON
Extracción sin esquema
prompt
al punto de conexión. El LLM elige la estructura de los datos.
JSON
Opciones del formato JSON
json
, pasa un objeto dentro de formats
con los siguientes parámetros:
schema
: JSON Schema para la salida estructurada.prompt
: Prompt opcional para ayudar a guiar la extracción cuando hay un esquema o cuando prefieras una guía ligera.
Interacción con la página mediante acciones
wait
antes y/o después de ejecutar otras acciones para dar tiempo suficiente a que la página cargue.
Ejemplo
Salida
Ubicación e idioma
Cómo funciona
Uso
location
en el cuerpo de la solicitud con las siguientes propiedades:
country
: código de país ISO 3166-1 alfa-2 (p. ej., ‘US’, ‘AU’, ‘DE’, ‘JP’). Por defecto: ‘US’.languages
: una lista de idiomas y configuraciones regionales preferidas para la solicitud en orden de prioridad. Por defecto, usa el idioma de la ubicación especificada.
Caché y maxAge
- Ventana de frescura predeterminada:
maxAge = 172800000
ms (2 días). Si la copia en caché es más reciente que esto, se devuelve al instante; de lo contrario, la página se vuelve a extraer y luego se almacena en caché. - Rendimiento: Esto puede acelerar las extracciones hasta 5× cuando los datos no necesitan estar ultra frescos.
- Obtener siempre contenido fresco: Establece
maxAge
en0
. - Evitar almacenamiento: Establece
storeInCache
enfalse
si no quieres que Firecrawl almacene/guarde los resultados de esta solicitud en la caché.
Raspado por lotes de múltiples URL
Cómo funciona
/crawl
. Envía un trabajo de scraping por lotes y devuelve un ID de trabajo para consultar el estado del scraping por lotes.
El SDK ofrece 2 métodos: sincrónico y asincrónico. El método sincrónico devuelve los resultados del trabajo de scraping por lotes, mientras que el asincrónico devuelve un ID de trabajo que puedes usar para consultar el estado del scraping por lotes.
Uso
Respuesta
Sincronía
Completado
Asíncrono
/batch/scrape/{id}
. Este punto de conexión está pensado para usarse mientras el trabajo sigue en ejecución o justo después de que haya finalizado, ya que los trabajos de scrape por lotes expiran a las 24 horas.