Monitoramento de site

O monitoramento de site acompanha um site inteiro em vez de uma lista fixa de URLs. Cada verificação executa um rastreamento para a url de alvo, faz scraping de cada página descoberta e compara o resultado com o último snapshot armazenado. Isso detecta páginas adicionadas, alteradas e removidas, não apenas edições em páginas que você já definiu. É a escolha certa para sites de documentação, blogs, changelogs, centrais de ajuda e sites de concorrentes. Esta página aborda o alvo crawl. Agendamento, objetivos e avaliação, acompanhamento de alterações, notificações e preços são compartilhados entre todos os tipos de monitor. Veja a visão geral do monitoramento.

Crie um monitor de site

Crie um monitor com um alvo crawl para gerar um diff de cada página descoberta por um rastreamento a cada verificação:

from firecrawl import Firecrawl

firecrawl = Firecrawl(api_key="fc-YOUR-API-KEY")

monitor = firecrawl.create_monitor(
    name="Docs monitor",
    schedule={"cron": "7-59/15 * * * *", "timezone": "UTC"},
    goal="Notify me when docs pages add, remove, or materially change API behavior",
    targets=[
        {
            "type": "crawl",
            "url": "https://example.com/docs",
            "crawlOptions": {
                "limit": 100,
                "maxDiscoveryDepth": 3,
            },
        }
    ],
    webhook={
        "url": "https://example.com/webhooks/firecrawl",
        "events": ["monitor.page", "monitor.check.completed"],
    },
)

print(monitor.id)

import Firecrawl from "@mendable/firecrawl-js";

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const monitor = await firecrawl.createMonitor({
  name: "Docs monitor",
  schedule: { cron: "7-59/15 * * * *", timezone: "UTC" },
  webhook: {
    url: "https://example.com/webhooks/firecrawl",
    events: ["monitor.page", "monitor.check.completed"],
  },
  goal: "Notify me when docs pages add, remove, or materially change API behavior",
  targets: [
    {
      type: "crawl",
      url: "https://example.com/docs",
      crawlOptions: {
        limit: 100,
        maxDiscoveryDepth: 3,
      },
    },
  ],
});

console.log(monitor.id);

curl -s -X POST "https://api.firecrawl.dev/v2/monitor" \
  -H "Authorization: Bearer $FIRECRAWL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "Docs monitor",
    "schedule": {
      "cron": "7-59/15 * * * *",
      "timezone": "UTC"
    },
    "webhook": {
      "url": "https://example.com/webhooks/firecrawl",
      "events": ["monitor.page", "monitor.check.completed"]
    },
    "goal": "Notify me when docs pages add, remove, or materially change API behavior",
    "targets": [
      {
        "type": "crawl",
        "url": "https://example.com/docs",
        "crawlOptions": {
          "limit": 100,
          "maxDiscoveryDepth": 3
        }
      }
    ]
  }'

Alvo de rastreamento

Um alvo crawl requer type e uma única url. Use crawlOptions para definir o comportamento do rastreamento e scrapeOptions para definir como cada página descoberta é extraída:

Crawl target

{
  "type": "crawl",
  "url": "https://example.com/docs",
  "crawlOptions": {
    "limit": 100,
    "includePaths": ["/docs"]
  },
  "scrapeOptions": {
    "formats": ["markdown"]
  }
}

Campos comuns de crawlOptions:

limit: Número máximo de páginas que uma verificação pode rastrear.
maxDiscoveryDepth: Quantos níveis de links, a partir da url inicial, devem ser explorados para descobrir páginas.
maxDepth: Profundidade máxima de rastreamento.
includePaths: Monitore apenas URLs que correspondam a estes padrões de caminho (por exemplo, /docs).
excludePaths: Ignore URLs que correspondam a estes padrões de caminho.

Assim como nos monitores de página, os scrapes acionados pelo monitor usam maxAge como 0 por padrão, então cada verificação refaz o scraping das páginas descobertas, a menos que você defina um maxAge diferente em scrapeOptions.

O que cada verificação informa

Uma verificação de rastreamento compara cada página descoberta com a verificação anterior e registra um status por página:

same: A página foi descoberta novamente e não mudou.
changed: A página foi descoberta novamente e mudou.
new: A página foi descoberta pela primeira vez.
removed: Uma página da verificação anterior não foi mais descoberta.
error: Não foi possível verificar a página.

Para emitir alertas sobre campos estruturados específicos nas páginas rastreadas, adicione um formato changeTracking a scrapeOptions. Veja Rastreamento de mudanças.

Configuração compartilhada

Agendamentos: cron ou cadência em linguagem natural, com mínimo de 5 minutos.
Objetivos e avaliação: alertas apenas para mudanças significativas.
Notificações: envio por webhook e email.
Resultados das verificações: inspecione cada verificação e seus diffs por página.
Preços: 1 crédito por página descoberta em cada verificação, além da avaliação opcional.

Primeiros passos

Endpoints principais

Mais

Guias de início rápido

Guias para desenvolvedores

Webhooks

Casos de uso

Outros

Como contribuir

Monitoramento de site

Crie um monitor de site

Alvo de rastreamento

O que cada verificação informa

Configuração compartilhada

​Crie um monitor de site

​Alvo de rastreamento

​O que cada verificação informa

​Configuração compartilhada

Crie um monitor de site

Alvo de rastreamento

O que cada verificação informa

Configuração compartilhada