
Visão geral
- Detecte se uma página da web mudou desde a última coleta
- Veja as mudanças específicas entre coletas
- Obtenha dados estruturados sobre o que mudou
- Controle a visibilidade das mudanças
changeTracking, você pode monitorar mudanças em um site e receber informações sobre:
previousScrapeAt: O carimbo de data/hora da coleta anterior com a qual a página atual está sendo comparada (nullse não houve coleta anterior)changeStatus: O resultado da comparação entre as duas versões da páginanew: Esta página não existia ou não havia sido descoberta antes (geralmente tempreviousScrapeAtnull)same: O conteúdo desta página não mudou desde a última coletachanged: O conteúdo desta página mudou desde a última coletaremoved: Esta página foi removida desde a última coleta
visibility: A visibilidade da página/URL atualvisible: Esta página está visível, o que significa que sua URL foi descoberta por uma rota orgânica (por meio de links em outras páginas visíveis ou pelo sitemap)hidden: Esta página não está visível, o que significa que ainda está disponível na web, mas não é mais encontrável via sitemap ou rastreamento do site. Só podemos identificar links invisíveis se eles tiverem sido visíveis — e capturados — durante uma coleta ou rastreamento anterior
SDKs
Uso básico
Opções avançadas
formats:
Exemplo de resultados do Git-Diff:
Exemplo de resultados de comparação em JSON:
Modelos de dados
Modos de Rastreio de Mudanças
Modo Git-Diff
git-diff fornece um formato de diff tradicional, semelhante à saída do Git. Ele mostra alterações linha a linha, com adições e exclusões destacadas.
Exemplo de saída:
files: Lista de arquivos alterados (no contexto da web, geralmente apenas um)chunks: Seções de alterações dentro de um arquivochanges: Alterações de linha individuais com tipo (add, delete, normal)
Modo JSON
json oferece uma comparação estruturada de campos específicos extraídos do conteúdo. Isso é útil para acompanhar mudanças em pontos de dados específicos, em vez de em todo o conteúdo.
Exemplo de saída:
Fatos importantes
-
Método de comparação: As coletas (scrapes) são sempre comparadas com base na resposta em markdown.
- O formato
markdowntambém deve ser especificado ao usar o formatochangeTracking. Outros formatos podem ser especificados adicionalmente. - O algoritmo de comparação é resistente a alterações em espaços em branco e na ordem do conteúdo. URLs de origem de iframes são ignoradas atualmente para aumentar a resiliência contra captchas e antibots com URLs aleatórias.
- O formato
-
Correspondência com coletas anteriores: As coletas anteriores usadas para comparação são atualmente associadas pelo URL de origem, pelo ID da equipe, pelo formato
markdowne pelo parâmetrotag.- Para uma comparação eficaz, o URL de entrada deve ser exatamente o mesmo da solicitação anterior para o mesmo conteúdo.
- Rastear os mesmos URLs com
includePaths/excludePathsdiferentes pode gerar inconsistências ao usarchangeTracking. - Raspar os mesmos URLs com
includeTags/excludeTags/onlyMainContentdiferentes pode gerar inconsistências ao usarchangeTracking. - As páginas também serão comparadas com coletas anteriores que tenham apenas o formato
markdown, sem o formatochangeTracking. - As comparações são limitadas à sua equipe. Se você raspar um URL pela primeira vez com sua chave de API, o
changeStatusserá semprenew, mesmo que outros usuários do Firecrawl já o tenham raspado antes.
-
Status Beta: Enquanto estiver em Beta, recomenda-se monitorar o campo
warningdo documento resultante e tratar a possibilidade de o objetochangeTrackingestar ausente na resposta.- Isso pode ocorrer quando a consulta ao banco de dados para localizar a coleta anterior para comparação excede o tempo limite.
Exemplos
Exemplo básico de scraping
Exemplo de Crawl
Acompanhando alterações no preço de produto
Monitoramento de alterações de conteúdo com Git-Diff
Cobrança
git-diff não tem custo adicional. Porém, se você usar o modo json para comparação de dados estruturados, a extração da página custará 5 créditos por página.
