Instalação
Node.js
Uso
- Obtenha uma chave de API em firecrawl.dev
- Defina a chave de API como uma variável de ambiente chamada
FIRECRAWL_API_KEY
ou passe-a como parâmetro para a classeFirecrawlApp
.
Node
Extraindo dados de uma URL
scrapeUrl
. Ele recebe a URL como parâmetro e retorna os dados coletados como um dicionário.
Node
Rastreamento de um site
crawlUrl
. Ele recebe a URL inicial e parâmetros opcionais como argumentos. O parâmetro params
permite especificar opções adicionais para a tarefa de rastreamento, como o número máximo de páginas a rastrear, domínios permitidos e o formato de saída. Veja Pagination para paginação automática/manual e limites.
Node
Iniciar um Crawl
startCrawl
. Ele retorna um ID
de job que você pode usar para verificar o status. Use crawl
quando quiser um “waiter” que bloqueia até a conclusão. Veja Paginação para comportamento e limites de paginação.
Node
Verificando o status do rastreamento
checkCrawlStatus
. Ele recebe o ID
como parâmetro e retorna o status atual do trabalho de rastreamento.
Node
Cancelando um Crawl
cancelCrawl
. Ele recebe o ID do job retornado por startCrawl
como parâmetro e retorna o status do cancelamento.
Node.js
Mapeando um site
mapUrl
. Ele recebe a URL inicial como parâmetro e retorna os dados mapeados como um dicionário.
Node
Rastreando um site com WebSockets
crawlUrlAndWatch
. Ele recebe a URL inicial e parâmetros opcionais como argumentos. O parâmetro params
permite especificar opções adicionais para a tarefa de rastreamento, como o número máximo de páginas a rastrear, os domínios permitidos e o formato de saída.
Node
Paginação
next
quando há mais dados disponíveis. O SDK de Node faz paginação automática por padrão e agrega todos os documentos; nesse caso, next
será null
. Você pode desativar a paginação automática ou definir limites.
Rastreamento
crawl
para a experiência mais simples, ou inicie um job e faça a paginação manualmente.
Rastreamento simples (paginação automática, padrão)
- Veja o fluxo padrão em Rastrear um site.
Rastreamento manual com controle de paginação (página única)
- Inicie um job e, em seguida, recupere uma página por vez com
autoPaginate: false
.
Node
Rastreamento manual com limites (paginação automática + parada antecipada)
- Mantenha a paginação automática ativada, mas interrompa antecipadamente com
maxPages
,maxResults
oumaxWaitTime
.
Node
Coleta em lote
batchScrape
ou inicie uma tarefa e pagine manualmente.
Raspagem em lote simples (paginação automática, padrão)
- Veja o fluxo padrão em Raspagem em lote.
Coleta manual em lote com controle de paginação (página única)
- Inicie um job e, em seguida, recupere uma página por vez com
autoPaginate: false
.
Node
Coleta manual em lote com limites (paginação automática + parada antecipada)
- Mantenha a paginação automática ligada, mas interrompa antes com
maxPages
,maxResults
oumaxWaitTime
.
Node
Tratamento de erros
try/catch
.