Crawl
Documentation Index
Fetch the complete documentation index at: https://docs.firecrawl.dev/llms.txt
Use this file to discover all available pages before exploring further.
Observação: uma nova versão v2 desta API já está disponível com recursos e desempenho aprimorados.
Autorizações
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
Corpo
A URL base de onde o rastreamento será iniciado
⚠️ DESCONTINUADO: Use "crawlEntireDomain" em vez disso. Permite que o crawler siga links internos para URLs irmãs ou URL de nível superior, não apenas caminhos filhos.
Permite que o rastreador siga links para sites externos.
Permite que o crawler rastreie links que apontam para subdomínios do domínio principal.
Permite que o rastreador siga links internos para URLs no mesmo nível (irmãs) ou URLs pai, não apenas caminhos filhos.
false: Somente rastreia URLs mais profundas (filhas). → ex.: /features/feature-1 → /features/feature-1/tips ✅ → Não seguirá /pricing ou / ❌
true: Rastreia qualquer link interno, incluindo URLs no mesmo nível e URLs pai. → ex.: /features/feature-1 → /pricing, /, etc. ✅
Use true para obter uma cobertura interna mais ampla, além de caminhos aninhados.
Intervalo, em segundos, entre as coletas. Isso ajuda a respeitar os limites de requisições dos sites.
Padrões de regex para o pathname da URL que excluem URLs correspondentes do crawl. Por exemplo, se você definir "excludePaths": ["blog/.*"] para a URL base firecrawl.dev, quaisquer resultados que corresponderem a esse padrão serão excluídos, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.
Não reextraia o mesmo path com parâmetros de consulta diferentes (ou sem nenhum)
Ignorar o sitemap do site durante o rastreamento
Padrões de regex para o pathname da URL que definem quais URLs serão incluídas no rastreamento. Somente os caminhos que corresponderem aos padrões especificados serão incluídos na resposta. Por exemplo, se você definir "includePaths": ["blog/.*"] para a URL base firecrawl.dev, apenas resultados que correspondam a esse padrão serão incluídos, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.
Número máximo de páginas a serem rastreadas. O limite padrão é 10.000.
Número máximo de raspagens simultâneas. Esse parâmetro permite definir um limite de concorrência para este rastreamento. Se não for especificado, o rastreamento usará o limite de concorrência da sua equipe.
Profundidade absoluta máxima de rastreamento a partir da base da URL informada. Basicamente, é o número máximo de barras (/) que o pathname de uma URL coletada pode conter.
Profundidade máxima de rastreamento com base na ordem de descoberta. O site raiz e as páginas do sitemap têm profundidade de descoberta igual a 0. Por exemplo, se você definir como 1 e ativar ignoreSitemap, você só irá rastrear a URL informada e todas as URLs que estiverem linkadas nessa página.
Quando configurado como true, os padrões de regex em includePaths e excludePaths são comparados com a URL completa (incluindo parâmetros de query), em vez de apenas com o caminho (pathname) da URL. Útil quando você precisa filtrar URLs com base em query strings.
Objeto de especificação de webhook.
Se definido como true, não haverá retenção de dados para este crawl. Para habilitar esse recurso, entre em contato pelo e-mail help@firecrawl.dev

