Pular para o conteúdo principal
O monitoramento de site acompanha um site inteiro em vez de uma lista fixa de URLs. Cada verificação executa um rastreamento para a url de alvo, faz scraping de cada página descoberta e compara o resultado com o último snapshot armazenado. Isso detecta páginas adicionadas, alteradas e removidas, não apenas edições em páginas que você já definiu. É a escolha certa para sites de documentação, blogs, changelogs, centrais de ajuda e sites de concorrentes. Esta página aborda o alvo crawl. Agendamento, objetivos e avaliação, acompanhamento de alterações, notificações e preços são compartilhados entre todos os tipos de monitor. Veja a visão geral do monitoramento.

Crie um monitor de site

Crie um monitor com um alvo crawl para gerar um diff de cada página descoberta por um rastreamento a cada verificação:
from firecrawl import Firecrawl

firecrawl = Firecrawl(api_key="fc-YOUR-API-KEY")

monitor = firecrawl.create_monitor(
    name="Docs monitor",
    schedule={"cron": "7-59/15 * * * *", "timezone": "UTC"},
    goal="Notify me when docs pages add, remove, or materially change API behavior",
    targets=[
        {
            "type": "crawl",
            "url": "https://example.com/docs",
            "crawlOptions": {
                "limit": 100,
                "maxDiscoveryDepth": 3,
            },
        }
    ],
    webhook={
        "url": "https://example.com/webhooks/firecrawl",
        "events": ["monitor.page", "monitor.check.completed"],
    },
)

print(monitor.id)

Alvo de rastreamento

Um alvo crawl requer type e uma única url. Use crawlOptions para definir o comportamento do rastreamento e scrapeOptions para definir como cada página descoberta é extraída:
Crawl target
{
  "type": "crawl",
  "url": "https://example.com/docs",
  "crawlOptions": {
    "limit": 100,
    "includePaths": ["/docs"]
  },
  "scrapeOptions": {
    "formats": ["markdown"]
  }
}
Campos comuns de crawlOptions:
  • limit: Número máximo de páginas que uma verificação pode rastrear.
  • maxDiscoveryDepth: Quantos níveis de links, a partir da url inicial, devem ser explorados para descobrir páginas.
  • maxDepth: Profundidade máxima de rastreamento.
  • includePaths: Monitore apenas URLs que correspondam a estes padrões de caminho (por exemplo, /docs).
  • excludePaths: Ignore URLs que correspondam a estes padrões de caminho.
Assim como nos monitores de página, os scrapes acionados pelo monitor usam maxAge como 0 por padrão, então cada verificação refaz o scraping das páginas descobertas, a menos que você defina um maxAge diferente em scrapeOptions.

O que cada verificação informa

Uma verificação de rastreamento compara cada página descoberta com a verificação anterior e registra um status por página:
  • same: A página foi descoberta novamente e não mudou.
  • changed: A página foi descoberta novamente e mudou.
  • new: A página foi descoberta pela primeira vez.
  • removed: Uma página da verificação anterior não foi mais descoberta.
  • error: Não foi possível verificar a página.
Para emitir alertas sobre campos estruturados específicos nas páginas rastreadas, adicione um formato changeTracking a scrapeOptions. Veja Rastreamento de mudanças.

Configuração compartilhada