
Visão geral
- Detecte se uma página da web mudou desde a última coleta
- Veja as mudanças específicas entre coletas
- Obtenha dados estruturados sobre o que mudou
- Controle a visibilidade das mudanças
changeTracking
, você pode monitorar mudanças em um site e receber informações sobre:
previousScrapeAt
: O carimbo de data/hora da coleta anterior com a qual a página atual está sendo comparada (null
se não houve coleta anterior)changeStatus
: O resultado da comparação entre as duas versões da páginanew
: Esta página não existia ou não havia sido descoberta antes (geralmente tempreviousScrapeAt
null
)same
: O conteúdo desta página não mudou desde a última coletachanged
: O conteúdo desta página mudou desde a última coletaremoved
: Esta página foi removida desde a última coleta
visibility
: A visibilidade da página/URL atualvisible
: Esta página está visível, o que significa que sua URL foi descoberta por uma rota orgânica (por meio de links em outras páginas visíveis ou pelo sitemap)hidden
: Esta página não está visível, o que significa que ainda está disponível na web, mas não é mais encontrável via sitemap ou rastreamento do site. Só podemos identificar links invisíveis se eles tiverem sido visíveis — e capturados — durante uma coleta ou rastreamento anterior
SDKs
Uso básico
Opções avançadas
formats
:
Exemplo de resultados do Git-Diff:
Exemplo de resultados de comparação em JSON:
Modelos de dados
Modos de Rastreio de Mudanças
Modo Git-Diff
git-diff
fornece um formato de diff tradicional, semelhante à saída do Git. Ele mostra alterações linha a linha, com adições e exclusões destacadas.
Exemplo de saída:
files
: Lista de arquivos alterados (no contexto da web, geralmente apenas um)chunks
: Seções de alterações dentro de um arquivochanges
: Alterações de linha individuais com tipo (add, delete, normal)
Modo JSON
json
oferece uma comparação estruturada de campos específicos extraídos do conteúdo. Isso é útil para acompanhar mudanças em pontos de dados específicos, em vez de em todo o conteúdo.
Exemplo de saída:
Fatos importantes
-
Método de comparação: As coletas (scrapes) são sempre comparadas com base na resposta em markdown.
- O formato
markdown
também deve ser especificado ao usar o formatochangeTracking
. Outros formatos podem ser especificados adicionalmente. - O algoritmo de comparação é resistente a alterações em espaços em branco e na ordem do conteúdo. URLs de origem de iframes são ignoradas atualmente para aumentar a resiliência contra captchas e antibots com URLs aleatórias.
- O formato
-
Correspondência com coletas anteriores: As coletas anteriores usadas para comparação são atualmente associadas pelo URL de origem, pelo ID da equipe, pelo formato
markdown
e pelo parâmetrotag
.- Para uma comparação eficaz, o URL de entrada deve ser exatamente o mesmo da solicitação anterior para o mesmo conteúdo.
- Rastear os mesmos URLs com
includePaths
/excludePaths
diferentes pode gerar inconsistências ao usarchangeTracking
. - Raspar os mesmos URLs com
includeTags
/excludeTags
/onlyMainContent
diferentes pode gerar inconsistências ao usarchangeTracking
. - As páginas também serão comparadas com coletas anteriores que tenham apenas o formato
markdown
, sem o formatochangeTracking
. - As comparações são limitadas à sua equipe. Se você raspar um URL pela primeira vez com sua chave de API, o
changeStatus
será semprenew
, mesmo que outros usuários do Firecrawl já o tenham raspado antes.
-
Status Beta: Enquanto estiver em Beta, recomenda-se monitorar o campo
warning
do documento resultante e tratar a possibilidade de o objetochangeTracking
estar ausente na resposta.- Isso pode ocorrer quando a consulta ao banco de dados para localizar a coleta anterior para comparação excede o tempo limite.
Exemplos
Exemplo básico de scraping
Exemplo de Crawl
Acompanhando alterações no preço de produto
Monitoramento de alterações de conteúdo com Git-Diff
Cobrança
git-diff
não tem custo adicional. Porém, se você usar o modo json
para comparação de dados estruturados, a extração da página custará 5 créditos por página.