
Vue d’ensemble
- Détecter si une page web a changé depuis le dernier scrape
- Voir les changements précis entre les scrapes
- Obtenir des données structurées sur ce qui a changé
- Contrôler la visibilité des changements
suiviDesModifications
, vous pouvez surveiller les changements sur un site web et recevoir des informations sur :
previousScrapeAt
: l’horodatage du scrape précédent auquel la page actuelle est comparée (null
s’il n’y a pas eu de scrape précédent)changeStatus
: le résultat de la comparaison entre les deux versions de la pagenew
: cette page n’existait pas ou n’avait pas été découverte auparavant (a généralement unpreviousScrapeAt
ànull
)same
: le contenu de cette page n’a pas changé depuis le dernier scrapechanged
: le contenu de cette page a changé depuis le dernier scraperemoved
: cette page a été supprimée depuis le dernier scrape
visibility
: la visibilité de la page/URL actuellevisible
: cette page est visible, ce qui signifie que son URL a été découverte par une voie organique (via des liens sur d’autres pages visibles ou le sitemap)hidden
: cette page n’est pas visible, ce qui signifie qu’elle est toujours accessible sur le web, mais n’est plus découvrable via le sitemap ou l’exploration du site. Nous ne pouvons identifier des liens invisibles que s’ils avaient été visibles, et capturés, lors d’un crawl ou d’un scrape précédent
SDKs
Utilisation de base
Options avancées
formats
:
Exemple de résultats Git‑diff :
Exemple de résultats de comparaison JSON :
Modèles de données
Modes de suivi des modifications
Mode Git-Diff
git-diff
propose un format de diff classique, similaire à la sortie de Git. Il affiche les changements ligne par ligne, avec les ajouts et suppressions clairement signalés.
Exemple de sortie :
files
: tableau des fichiers modifiés (dans un contexte web, généralement un seul)chunks
: sections de modifications à l’intérieur d’un fichierchanges
: modifications de lignes individuelles avec type (add, delete, normal)
Mode JSON
json
fournit une comparaison structurée de champs spécifiques extraits du contenu. C’est utile pour suivre les modifications sur des points de données précis plutôt que sur l’ensemble du contenu.
Exemple de sortie :
Faits importants
-
Méthode de comparaison : Les extractions sont toujours comparées à partir de leur réponse en markdown.
- Le format
markdown
doit également être spécifié lorsque vous utilisez le formatsuiviDesModifications
(changeTracking
). D’autres formats peuvent être ajoutés en complément. - L’algorithme de comparaison est tolérant aux variations d’espaces et à l’ordre du contenu. Les URL sources des iframes sont actuellement ignorées afin de mieux gérer les captchas et les antibots qui génèrent des URL aléatoires.
- Le format
-
Correspondance avec les extractions précédentes : Les extractions précédentes utilisées pour la comparaison sont actuellement appariées sur l’URL source, l’ID d’équipe, le format
markdown
et le paramètretag
.- Pour une comparaison fiable, l’URL fournie doit être exactement la même que lors de la requête précédente visant le même contenu.
- Explorer les mêmes URL avec des
includePaths
/excludePaths
différents entraînera des incohérences avecsuiviDesModifications
. - Scraper les mêmes URL avec des
includeTags
/excludeTags
/onlyMainContent
différents entraînera des incohérences avecsuiviDesModifications
. - Les pages seront également comparées à des extractions précédentes qui n’avaient que le format
markdown
, sans le formatsuiviDesModifications
. - Les comparaisons sont limitées à votre équipe. Si vous scrapez une URL pour la première fois avec votre clé API, son
changeStatus
sera toujoursnew
, même si d’autres utilisateurs de Firecrawl l’ont déjà traitée auparavant.
-
Statut bêta : Pendant la bêta, il est recommandé de surveiller le champ
warning
du document résultant et de prendre en compte l’éventuelle absence de l’objetsuiviDesModifications
dans la réponse.- Cela peut se produire si la recherche en base de données du précédent scrape à comparer arrive à expiration.
Exemples
Exemple de scraping simple
Exemple d’exploration
Suivi des variations de prix des produits
Suivre les modifications de contenu avec Git-Diff
Facturation
git-diff
n’entraîne aucun coût supplémentaire. En revanche, si vous utilisez le mode json
pour comparer des données structurées, l’extraction de la page coûtera 5 crédits par page.