Raspagem em Lote

Raspe várias URLs e, opcionalmente, extraia informações usando um LLM

curl --request POST \
  --url https://api.firecrawl.dev/v1/batch/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "maxConcurrency": 123,
  "ignoreInvalidURLs": false,
  "onlyMainContent": true,
  "includeTags": [
    "<string>"
  ],
  "excludeTags": [
    "<string>"
  ],
  "maxAge": 0,
  "headers": {},
  "waitFor": 0,
  "mobile": false,
  "skipTlsVerification": false,
  "timeout": 30000,
  "parsePDF": true,
  "jsonOptions": {
    "schema": {},
    "systemPrompt": "<string>",
    "prompt": "<string>"
  },
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2,
      "selector": "#my-element"
    }
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "removeBase64Images": true,
  "blockAds": true,
  "proxy": "basic",
  "storeInCache": true,
  "formats": [
    "markdown"
  ],
  "changeTrackingOptions": {
    "modes": [
      "git-diff"
    ],
    "schema": {},
    "prompt": "<string>",
    "tag": null
  },
  "zeroDataRetention": false
}
'

{
  "success": true,
  "id": "<string>",
  "url": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

POST

batch

scrape

Raspe várias URLs e, opcionalmente, extraia informações usando um LLM

curl --request POST \
  --url https://api.firecrawl.dev/v1/batch/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "maxConcurrency": 123,
  "ignoreInvalidURLs": false,
  "onlyMainContent": true,
  "includeTags": [
    "<string>"
  ],
  "excludeTags": [
    "<string>"
  ],
  "maxAge": 0,
  "headers": {},
  "waitFor": 0,
  "mobile": false,
  "skipTlsVerification": false,
  "timeout": 30000,
  "parsePDF": true,
  "jsonOptions": {
    "schema": {},
    "systemPrompt": "<string>",
    "prompt": "<string>"
  },
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2,
      "selector": "#my-element"
    }
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "removeBase64Images": true,
  "blockAds": true,
  "proxy": "basic",
  "storeInCache": true,
  "formats": [
    "markdown"
  ],
  "changeTrackingOptions": {
    "modes": [
      "git-diff"
    ],
    "schema": {},
    "prompt": "<string>",
    "tag": null
  },
  "zeroDataRetention": false
}
'

{
  "success": true,
  "id": "<string>",
  "url": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

Observação: Uma nova versão v2 desta API agora está disponível com desempenho e confiabilidade aprimorados no processamento em lote.

Autorizações

Authorization

string

header

obrigatório

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corpo

application/json

urls

string<uri>[]

obrigatório

A URL a ser coletada

webhook

object

Um objeto de especificação de webhook.

Show child attributes

maxConcurrency

integer

Número máximo de raspagens concorrentes. Este parâmetro permite definir um limite de concorrência para esta raspagem em lote. Se não for especificado, a raspagem em lote seguirá o limite de concorrência da sua equipe.

ignoreInvalidURLs

boolean

padrão:false

Se URLs inválidas forem especificadas no array urls, elas serão ignoradas. Em vez de fazer com que toda a requisição falhe, será criada uma raspagem em lote usando apenas as URLs válidas restantes, e as URLs inválidas serão retornadas no campo invalidURLs da resposta.

onlyMainContent

boolean

padrão:true

Retorne apenas o conteúdo principal da página, excluindo cabeçalhos, áreas de navegação, rodapés etc.

includeTags

string[]

Tags para incluir na saída.

excludeTags

string[]

Tags a serem excluídas da saída.

maxAge

integer

padrão:0

Retorna uma versão em cache da página se ela tiver menos que essa idade, em milissegundos. Se a versão em cache da página for mais antiga que esse valor, a página será raspada novamente. Se você não precisar de dados extremamente atualizados, ativar essa opção pode acelerar suas raspagens em até 500%. O padrão é 0, o que desativa o cache.

headers

object

Cabeçalhos a serem enviados com a requisição. Podem ser usados para enviar cookies, user-agent etc.

waitFor

integer

padrão:0

Defina um atraso, em milissegundos, antes de buscar o conteúdo, permitindo que a página tenha tempo suficiente para carregar.

mobile

boolean

padrão:false

Defina como true para emular a raspagem de dados a partir de um dispositivo móvel. Útil para testar páginas responsivas e gerar capturas de tela da versão mobile.

skipTlsVerification

boolean

padrão:false

Ignorar a verificação do certificado TLS ao fazer requisições

timeout

integer

padrão:30000

Tempo limite da requisição em milissegundos

parsePDF

boolean

padrão:true

Controla como os arquivos PDF são processados durante o scraping. Quando definido como true, o conteúdo do PDF é extraído e convertido para o formato Markdown, com cobrança baseada no número de páginas (1 crédito por página). Quando definido como false, o arquivo PDF é retornado codificado em base64, com uma tarifa fixa de 1 crédito no total.

jsonOptions

object

Objeto JSON de opções

Show child attributes

actions

Ações a serem realizadas na página antes de extrair o conteúdo

Show child attributes

location

object

Configurações de localização para a requisição. Quando especificadas, será usado um proxy apropriado, se disponível, e serão emuladas as configurações correspondentes de idioma e fuso horário. O padrão é "US" se não for especificado.

Show child attributes

removeBase64Images

boolean

padrão:true

Remove todas as imagens em base64 da saída, que podem ser excessivamente longas. O texto alternativo (alt) da imagem permanece na saída, mas a URL é substituída por um espaço reservado.

blockAds

boolean

padrão:true

Habilita o bloqueio de anúncios e de pop-ups de cookies.

proxy

enum<string>

Especifica o tipo de proxy a ser usado.

basic: Proxies para scraping de sites sem ou com soluções anti-bot básicas. Rápido e geralmente funciona.
enhanced: Proxies avançados para scraping de sites com soluções anti-bot mais sofisticadas. Mais lento, mas mais confiável em certos sites. Custa até 5 créditos por requisição.
auto: O Firecrawl tentará automaticamente fazer o scraping novamente com proxies enhanced se o proxy basic falhar. Se a nova tentativa com enhanced for bem-sucedida, 5 créditos serão cobrados pelo scraping. Se a primeira tentativa com basic for bem-sucedida, apenas o custo normal será cobrado.

Se você não especificar um proxy, o Firecrawl usará basic por padrão.

Opções disponíveis:

basic,

enhanced,

auto

storeInCache

boolean

padrão:true

Se definido como true, a página será armazenada no índice e no cache do Firecrawl. Definir isso como false é útil se sua atividade de scraping puder levantar preocupações relacionadas à proteção de dados. O uso de alguns parâmetros associados a scraping sensível (ações, headers) fará com que esse parâmetro seja definido como false.

formats

enum<string>[]

Formatos a serem incluídos no resultado.

Opções disponíveis:

markdown,

html,

rawHtml,

links,

screenshot,

screenshot@fullPage,

json,

changeTracking

changeTrackingOptions

object

Opções de rastreio de mudanças (Beta). Aplicável somente quando 'changeTracking' estiver incluído em formatos. O formato 'markdown' também deve ser especificado ao usar o rastreio de mudanças.

Show child attributes

zeroDataRetention

boolean

padrão:false

Se definido como true, isso ativará a não retenção de dados para esta raspagem em lote. Para ativar esse recurso, entre em contato com help@firecrawl.dev

Resposta

Resposta bem-sucedida

success

boolean

string

url

string<uri>

invalidURLs

string[] | null

Se ignoreInvalidURLs for true, este será um array contendo as URLs inválidas especificadas na requisição. Se não houver URLs inválidas, será um array vazio. Se ignoreInvalidURLs for false, este campo ficará como undefined.

Scrape

Obter status da raspagem em lote

Usando a API

Endpoints de scraping

Endpoints de rastreamento

Endpoints de mapeamento

Endpoints de busca

Endpoints de extração

Endpoints de conta

Autorizações

Corpo

Resposta