
Descripción general
- Detectar si una página web ha cambiado desde la última extracción
- Ver los cambios específicos entre extracciones
- Obtener datos estructurados sobre lo que ha cambiado
- Controlar la visibilidad de los cambios
changeTracking, puedes monitorear cambios en un sitio web y recibir información sobre:
previousScrapeAt: La marca de tiempo de la extracción anterior con la que se compara la página actual (nullsi no hubo una extracción previa)changeStatus: El resultado de la comparación entre las dos versiones de la páginanew: Esta página no existía o no se había descubierto antes (suele tenerpreviousScrapeAtennull)same: El contenido de esta página no ha cambiado desde la última extracciónchanged: El contenido de esta página ha cambiado desde la última extracciónremoved: Esta página fue eliminada desde la última extracción
visibility: La visibilidad de la página/URL actualvisible: Esta página es visible, lo que significa que su URL se descubrió por una ruta orgánica (a través de enlaces en otras páginas visibles o del sitemap)hidden: Esta página no es visible, lo que significa que aún está disponible en la web, pero ya no es detectable mediante el sitemap o al rastrear el sitio. Solo podemos identificar enlaces invisibles si previamente fueron visibles y se capturaron durante un rastreo o extracción anteriores
SDKs
Uso básico
Opciones avanzadas
formats:
Ejemplo de resultados de git diff:
Ejemplo de resultados de comparación en JSON:
Modelos de datos
Modos de seguimiento de cambios
Modo Git-Diff
git-diff ofrece un formato de diferencias tradicional, similar a la salida de Git. Muestra los cambios línea por línea con adiciones y eliminaciones señaladas.
Ejemplo de salida:
files: Matriz de archivos modificados (en el contexto web, normalmente solo uno)chunks: Secciones de cambios dentro de un archivochanges: Cambios de línea individuales con tipo (add, delete, normal)
Modo JSON
json ofrece una comparación estructurada de campos específicos extraídos del contenido. Esto es útil para seguir cambios en datos concretos en lugar de en todo el contenido.
Salida de ejemplo:
Datos importantes
-
Método de comparación: Las extracciones siempre se comparan mediante su respuesta en markdown.
- El formato
markdowntambién debe especificarse cuando se utiliza el formatochangeTracking. Se pueden incluir otros formatos adicionalmente. - El algoritmo de comparación es resistente a cambios en espacios en blanco y en el orden del contenido. Actualmente se ignoran las URL de origen de iframes para mitigar captchas y antibots con URL aleatorias.
- El formato
-
Coincidencia con extracciones anteriores: Las extracciones previas con las que comparar se identifican actualmente por la URL de origen, el ID del equipo, el formato
markdowny el parámetrotag.- Para una comparación efectiva, la URL de entrada debe ser exactamente la misma que en la solicitud anterior para el mismo contenido.
- Rastrear las mismas URL con
includePaths/excludePathsdiferentes producirá inconsistencias al usarchangeTracking. - Extraer las mismas URL con
includeTags/excludeTags/onlyMainContentdiferentes producirá inconsistencias al usarchangeTracking. - Las páginas comparadas también se contrastarán con extracciones previas que solo tengan el formato
markdownsin el formatochangeTracking. - Las comparaciones se limitan a tu equipo. Si extraes una URL por primera vez con tu clave de API, su
changeStatussiempre seránew, incluso si otros usuarios de Firecrawl ya la han extraído antes.
-
Estado Beta: Mientras esté en Beta, se recomienda monitorear el campo
warningdel documento resultante y manejar la posible ausencia del objetochangeTrackingen la respuesta.- Esto puede ocurrir si la búsqueda en la base de datos para encontrar la extracción anterior con la que comparar excede el tiempo de espera.
Ejemplos
Ejemplo básico de scraping
Ejemplo de rastreo
Seguimiento de cambios en el precio de productos
Monitoreo de cambios de contenido con Git-Diff
Facturación
git-diff no tiene costo adicional. Sin embargo, si usas el modo json para la comparación de datos estructurados, el raspado de la página costará 5 créditos por página.
