Instalação
Python
Uso
- Obtenha uma chave de API em firecrawl.dev
- Configure a chave de API como uma variável de ambiente chamada
FIRECRAWL_API_KEY
ou passe-a como parâmetro para a classeFirecrawl
.
Python
Extraindo dados de uma URL
scrape
. Ele recebe a URL como parâmetro e retorna o documento raspado.
Python
Rastrear um site
crawl
. Ele recebe a URL inicial e, opcionalmente, um objeto de opções. Essas opções permitem definir configurações adicionais para a tarefa de rastreamento, como o número máximo de páginas, os domínios permitidos e o formato de saída. Consulte Paginação para detalhes sobre paginação automática/manual e limites.
Python
Iniciar um crawl
Prefere não bloquear? Veja a seção Classe assíncrona abaixo.
start_crawl
. Ela retorna um ID
de tarefa que você pode usar para verificar o status. Use crawl
quando quiser um aguardador que bloqueia até a conclusão. Consulte Paginação para o comportamento e os limites de paginação.
Python
Verificando o status do crawl
get_crawl_status
. Ele recebe o ID da tarefa como parâmetro e retorna o status atual do crawl.
Python
Cancelando um Crawl
cancel_crawl
. Ele recebe o ID do job do start_crawl
como parâmetro e retorna o status do cancelamento.
Python
Mapear um site
map
para gerar uma lista de URLs de um site. As opções permitem personalizar o processo de mapeamento, incluindo excluir subdomínios ou usar o sitemap.
Python
Rastreamento de um site com WebSockets
start_crawl
e faça a inscrição usando o helper watcher
. Crie um watcher com o ID da tarefa e vincule handlers (por exemplo, para page, completed, failed) antes de chamar start()
.
Python
Paginação
next
quando há mais dados disponíveis. O SDK Python pagina automaticamente por padrão e agrega todos os documentos; nesse caso, next
será None
. Você pode desativar a paginação automática ou definir limites.
Crawl
crawl
para a experiência mais simples ou inicie um job e faça a paginação manualmente.
Rastreamento simples (paginação automática, padrão)
- Veja o fluxo padrão em Rastrear um site.
Rastreamento manual com controle de paginação (página única)
- Inicie um job e, em seguida, recupere uma página por vez com
auto_paginate=False
.
Python
Rastreamento manual com limites (paginação automática + interrupção antecipada)
- Mantenha a paginação automática ativada, mas interrompa antecipadamente com
max_pages
,max_results
oumax_wait_time
.
Python
Coleta em lote
batch_scrape
ou inicie um job e faça a paginação manualmente.
Coleta em lote simples (paginação automática, padrão)
- Veja o fluxo padrão em Coleta em Lote.
Raspagem manual em lote com controle de paginação (página única)
- Inicie um job e recupere uma página por vez com
auto_paginate=False
.
Python
Coleta manual em lote com limites (paginação automática + parada antecipada)
- Deixe a paginação automática ativada, mas interrompa antes usando
max_pages
,max_results
oumax_wait_time
.
Python
Tratamento de erros
Classe assíncrona
AsyncFirecrawl
. Seus métodos espelham os de Firecrawl
, mas não bloqueiam a thread principal.
Python