Observação: Uma nova versão v2 desta API agora está disponível com desempenho e confiabilidade aprimorados no processamento em lote.
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
A URL a ser coletada
Um objeto de especificação de webhook.
Número máximo de raspagens concorrentes. Este parâmetro permite definir um limite de concorrência para esta raspagem em lote. Se não for especificado, a raspagem em lote seguirá o limite de concorrência da sua equipe.
Se URLs inválidas forem especificadas no array urls, elas serão ignoradas. Em vez de fazer com que toda a requisição falhe, será criada uma raspagem em lote usando apenas as URLs válidas restantes, e as URLs inválidas serão retornadas no campo invalidURLs da resposta.
Retorne apenas o conteúdo principal da página, excluindo cabeçalhos, áreas de navegação, rodapés etc.
Tags para incluir na saída.
Tags a serem excluídas da saída.
Retorna uma versão em cache da página se ela tiver menos que essa idade, em milissegundos. Se a versão em cache da página for mais antiga que esse valor, a página será raspada novamente. Se você não precisar de dados extremamente atualizados, ativar essa opção pode acelerar suas raspagens em até 500%. O padrão é 0, o que desativa o cache.
Cabeçalhos a serem enviados com a requisição. Podem ser usados para enviar cookies, user-agent etc.
Defina um atraso, em milissegundos, antes de buscar o conteúdo, permitindo que a página tenha tempo suficiente para carregar.
Defina como true para emular a raspagem de dados a partir de um dispositivo móvel. Útil para testar páginas responsivas e gerar capturas de tela da versão mobile.
Ignorar a verificação do certificado TLS ao fazer requisições
Tempo limite da requisição em milissegundos
Controla como os arquivos PDF são processados durante o scraping. Quando definido como true, o conteúdo do PDF é extraído e convertido para o formato Markdown, com cobrança baseada no número de páginas (1 crédito por página). Quando definido como false, o arquivo PDF é retornado codificado em base64, com uma tarifa fixa de 1 crédito no total.
Objeto JSON de opções
Ações a serem realizadas na página antes de extrair o conteúdo
Configurações de localização para a requisição. Quando especificadas, será usado um proxy apropriado, se disponível, e serão emuladas as configurações correspondentes de idioma e fuso horário. O padrão é "US" se não for especificado.
Remove todas as imagens em base64 da saída, que podem ser excessivamente longas. O texto alternativo (alt) da imagem permanece na saída, mas a URL é substituída por um espaço reservado.
Habilita o bloqueio de anúncios e de pop-ups de cookies.
Especifica o tipo de proxy a ser usado.
Se você não especificar um proxy, o Firecrawl usará basic por padrão.
basic, stealth, auto Se definido como true, a página será armazenada no índice e no cache do Firecrawl. Definir isso como false é útil se sua atividade de scraping puder levantar preocupações relacionadas à proteção de dados. O uso de alguns parâmetros associados a scraping sensível (ações, headers) fará com que esse parâmetro seja definido como false.
Formatos a serem incluídos no resultado.
markdown, html, rawHtml, links, screenshot, screenshot@fullPage, json, changeTracking Opções de rastreio de mudanças (Beta). Aplicável somente quando 'changeTracking' estiver incluído em formatos. O formato 'markdown' também deve ser especificado ao usar o rastreio de mudanças.
Se definido como true, isso ativará a não retenção de dados para esta raspagem em lote. Para ativar esse recurso, entre em contato com [email protected]
Resposta bem-sucedida