
Descripción general
- Detectar si una página web ha cambiado desde la última extracción
- Ver los cambios específicos entre extracciones
- Obtener datos estructurados sobre lo que ha cambiado
- Controlar la visibilidad de los cambios
changeTracking
, puedes monitorear cambios en un sitio web y recibir información sobre:
previousScrapeAt
: La marca de tiempo de la extracción anterior con la que se compara la página actual (null
si no hubo una extracción previa)changeStatus
: El resultado de la comparación entre las dos versiones de la páginanew
: Esta página no existía o no se había descubierto antes (suele tenerpreviousScrapeAt
ennull
)same
: El contenido de esta página no ha cambiado desde la última extracciónchanged
: El contenido de esta página ha cambiado desde la última extracciónremoved
: Esta página fue eliminada desde la última extracción
visibility
: La visibilidad de la página/URL actualvisible
: Esta página es visible, lo que significa que su URL se descubrió por una ruta orgánica (a través de enlaces en otras páginas visibles o del sitemap)hidden
: Esta página no es visible, lo que significa que aún está disponible en la web, pero ya no es detectable mediante el sitemap o al rastrear el sitio. Solo podemos identificar enlaces invisibles si previamente fueron visibles y se capturaron durante un rastreo o extracción anteriores
SDKs
Uso básico
Opciones avanzadas
formats
:
Ejemplo de resultados de git diff:
Ejemplo de resultados de comparación en JSON:
Modelos de datos
Modos de seguimiento de cambios
Modo Git-Diff
git-diff
ofrece un formato de diferencias tradicional, similar a la salida de Git. Muestra los cambios línea por línea con adiciones y eliminaciones señaladas.
Ejemplo de salida:
files
: Matriz de archivos modificados (en el contexto web, normalmente solo uno)chunks
: Secciones de cambios dentro de un archivochanges
: Cambios de línea individuales con tipo (add, delete, normal)
Modo JSON
json
ofrece una comparación estructurada de campos específicos extraídos del contenido. Esto es útil para seguir cambios en datos concretos en lugar de en todo el contenido.
Salida de ejemplo:
Datos importantes
-
Método de comparación: Las extracciones siempre se comparan mediante su respuesta en markdown.
- El formato
markdown
también debe especificarse cuando se utiliza el formatochangeTracking
. Se pueden incluir otros formatos adicionalmente. - El algoritmo de comparación es resistente a cambios en espacios en blanco y en el orden del contenido. Actualmente se ignoran las URL de origen de iframes para mitigar captchas y antibots con URL aleatorias.
- El formato
-
Coincidencia con extracciones anteriores: Las extracciones previas con las que comparar se identifican actualmente por la URL de origen, el ID del equipo, el formato
markdown
y el parámetrotag
.- Para una comparación efectiva, la URL de entrada debe ser exactamente la misma que en la solicitud anterior para el mismo contenido.
- Rastrear las mismas URL con
includePaths
/excludePaths
diferentes producirá inconsistencias al usarchangeTracking
. - Extraer las mismas URL con
includeTags
/excludeTags
/onlyMainContent
diferentes producirá inconsistencias al usarchangeTracking
. - Las páginas comparadas también se contrastarán con extracciones previas que solo tengan el formato
markdown
sin el formatochangeTracking
. - Las comparaciones se limitan a tu equipo. Si extraes una URL por primera vez con tu clave de API, su
changeStatus
siempre seránew
, incluso si otros usuarios de Firecrawl ya la han extraído antes.
-
Estado Beta: Mientras esté en Beta, se recomienda monitorear el campo
warning
del documento resultante y manejar la posible ausencia del objetochangeTracking
en la respuesta.- Esto puede ocurrir si la búsqueda en la base de datos para encontrar la extracción anterior con la que comparar excede el tiempo de espera.
Ejemplos
Ejemplo básico de scraping
Ejemplo de rastreo
Seguimiento de cambios en el precio de productos
Monitoreo de cambios de contenido con Git-Diff
Facturación
git-diff
no tiene costo adicional. Sin embargo, si usas el modo json
para la comparación de datos estructurados, el raspado de la página costará 5 créditos por página.