Raspar

Fazer scraping de uma única URL e, opcionalmente, extrair informações usando um LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "formats": [
    "markdown"
  ],
  "onlyMainContent": true,
  "includeTags": [
    "<string>"
  ],
  "excludeTags": [
    "<string>"
  ],
  "maxAge": 172800000,
  "minAge": 123,
  "headers": {},
  "waitFor": 0,
  "mobile": false,
  "skipTlsVerification": true,
  "timeout": 30000,
  "parsers": [
    "pdf"
  ],
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2
    }
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "removeBase64Images": true,
  "blockAds": true,
  "proxy": "auto",
  "storeInCache": true,
  "zeroDataRetention": false
}
'

{
  "success": true,
  "data": {
    "markdown": "<string>",
    "summary": "<string>",
    "html": "<string>",
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "links": [
      "<string>"
    ],
    "actions": {
      "screenshots": [
        "<string>"
      ],
      "scrapes": [
        {
          "url": "<string>",
          "html": "<string>"
        }
      ],
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ]
    },
    "metadata": {
      "title": "<string>",
      "description": "<string>",
      "language": "<string>",
      "sourceURL": "<string>",
      "url": "<string>",
      "keywords": "<string>",
      "ogLocaleAlternate": [
        "<string>"
      ],
      "<any other metadata> ": "<string>",
      "statusCode": 123,
      "error": "<string>"
    },
    "warning": "<string>",
    "changeTracking": {
      "previousScrapeAt": "2023-11-07T05:31:56Z",
      "changeStatus": "new",
      "visibility": "visible",
      "diff": "<string>",
      "json": {}
    },
    "branding": {
      "colorScheme": "light",
      "logo": "<string>",
      "colors": {
        "primary": "<string>",
        "secondary": "<string>",
        "accent": "<string>",
        "background": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "link": "<string>",
        "success": "<string>",
        "warning": "<string>",
        "error": "<string>"
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "typography": {
        "fontFamilies": {
          "primary": "<string>",
          "heading": "<string>",
          "code": "<string>"
        },
        "fontSizes": {
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>",
          "body": "<string>"
        },
        "fontWeights": {
          "light": 123,
          "regular": 123,
          "medium": 123,
          "bold": 123
        },
        "lineHeights": {
          "heading": "<string>",
          "body": "<string>"
        }
      },
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "padding": {},
        "margins": {}
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "textColor": "<string>",
          "borderRadius": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "textColor": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>"
        },
        "input": {}
      },
      "icons": {},
      "images": {
        "logo": "<string>",
        "favicon": "<string>",
        "ogImage": "<string>"
      },
      "animations": {},
      "layout": {},
      "personality": {}
    }
  }
}

POST

scrape

Fazer scraping de uma única URL e, opcionalmente, extrair informações usando um LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "formats": [
    "markdown"
  ],
  "onlyMainContent": true,
  "includeTags": [
    "<string>"
  ],
  "excludeTags": [
    "<string>"
  ],
  "maxAge": 172800000,
  "minAge": 123,
  "headers": {},
  "waitFor": 0,
  "mobile": false,
  "skipTlsVerification": true,
  "timeout": 30000,
  "parsers": [
    "pdf"
  ],
  "actions": [
    {
      "type": "wait",
      "milliseconds": 2
    }
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "removeBase64Images": true,
  "blockAds": true,
  "proxy": "auto",
  "storeInCache": true,
  "zeroDataRetention": false
}
'

{
  "success": true,
  "data": {
    "markdown": "<string>",
    "summary": "<string>",
    "html": "<string>",
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "links": [
      "<string>"
    ],
    "actions": {
      "screenshots": [
        "<string>"
      ],
      "scrapes": [
        {
          "url": "<string>",
          "html": "<string>"
        }
      ],
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ]
    },
    "metadata": {
      "title": "<string>",
      "description": "<string>",
      "language": "<string>",
      "sourceURL": "<string>",
      "url": "<string>",
      "keywords": "<string>",
      "ogLocaleAlternate": [
        "<string>"
      ],
      "<any other metadata> ": "<string>",
      "statusCode": 123,
      "error": "<string>"
    },
    "warning": "<string>",
    "changeTracking": {
      "previousScrapeAt": "2023-11-07T05:31:56Z",
      "changeStatus": "new",
      "visibility": "visible",
      "diff": "<string>",
      "json": {}
    },
    "branding": {
      "colorScheme": "light",
      "logo": "<string>",
      "colors": {
        "primary": "<string>",
        "secondary": "<string>",
        "accent": "<string>",
        "background": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "link": "<string>",
        "success": "<string>",
        "warning": "<string>",
        "error": "<string>"
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "typography": {
        "fontFamilies": {
          "primary": "<string>",
          "heading": "<string>",
          "code": "<string>"
        },
        "fontSizes": {
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>",
          "body": "<string>"
        },
        "fontWeights": {
          "light": 123,
          "regular": 123,
          "medium": 123,
          "bold": 123
        },
        "lineHeights": {
          "heading": "<string>",
          "body": "<string>"
        }
      },
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "padding": {},
        "margins": {}
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "textColor": "<string>",
          "borderRadius": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "textColor": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>"
        },
        "input": {}
      },
      "icons": {},
      "images": {
        "logo": "<string>",
        "favicon": "<string>",
        "ogImage": "<string>"
      },
      "animations": {},
      "layout": {},
      "personality": {}
    }
  }
}

Ações do navegador

Você pode realizar interações no navegador antes da raspagem de dados usando o parâmetro actions. Isso permite que você:

Aguarde o carregamento de elementos
Clique em botões ou links
Preencha campos de formulários
Pressione teclas
Role páginas
Tire capturas de tela
Execute JavaScript personalizado
Gere PDFs

As ações compatíveis incluem wait, click, write, press, scroll, screenshot, scrape, executeJavascript e pdf. Para ver a documentação detalhada com exemplos, consulte o Guia Avançado de Scraping.

Autorizações

Authorization

string

header

obrigatório

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corpo

application/json

url

string<uri>

obrigatório

URL a ser raspada

formats

Formatos de saída que devem ser incluídos na resposta. Você pode especificar um ou mais formatos, como strings (por exemplo, 'markdown') ou como objetos com opções adicionais (por exemplo, { type: 'json', schema: {...} }). Alguns formatos exigem que opções específicas sejam configuradas. Exemplo: ['markdown', { type: 'json', schema: {...} }].

Show child attributes

onlyMainContent

boolean

padrão:true

Retorne somente o conteúdo principal da página, excluindo cabeçalhos, elementos de navegação, rodapés etc.

includeTags

string[]

Tags a serem incluídas no resultado.

excludeTags

string[]

Tags a serem excluídas da saída.

maxAge

integer

padrão:172800000

Retorna uma versão em cache da página se ela for mais recente do que essa idade em milissegundos. Se a versão em cache da página for mais antiga do que esse valor, a página será novamente coletada. Se você não precisa de dados extremamente atualizados, ativar isso pode acelerar suas coletas em até 500%. O padrão é 2 dias.

minAge

integer

Quando definido, a requisição verifica apenas o cache e nunca aciona uma nova extração. O valor está em milissegundos e especifica a idade mínima que os dados em cache devem ter. Se houver dados em cache correspondentes, eles serão retornados instantaneamente. Se nenhum dado em cache for encontrado, será retornado um 404 com o código de erro SCRAPE_NO_CACHED_DATA. Defina como 1 para aceitar qualquer dado em cache, independentemente da idade.

headers

object

Cabeçalhos a serem enviados na requisição. Podem ser usados para enviar cookies, user-agent etc.

waitFor

integer

padrão:0

Defina um atraso, em milissegundos, antes de buscar o conteúdo, permitindo que a página tenha tempo suficiente para carregar. Esse tempo de espera é somado ao recurso de espera inteligente do Firecrawl.

mobile

boolean

padrão:false

Defina como true se quiser emular a extração a partir de um dispositivo móvel. Útil para testar páginas responsivas e capturar screenshots da versão mobile.

skipTlsVerification

boolean

padrão:true

Ignorar a verificação de certificado TLS ao realizar requisições.

timeout

integer

padrão:30000

Tempo limite da requisição, em milissegundos. O valor padrão é 30000 (30 segundos). O valor máximo é 300000 (300 segundos).

Intervalo obrigatório: x <= 300000

parsers

object[]

Controla como os arquivos são processados durante o scraping. Quando "pdf" é incluído (padrão), o conteúdo do PDF é extraído e convertido em markdown, com cobrança baseada no número de páginas (1 crédito por página). Quando um array vazio é fornecido, o arquivo PDF é retornado em codificação base64 com uma taxa fixa de 1 crédito para todo o PDF.

Show child attributes

actions

Ações a serem executadas na página antes de extrair o conteúdo

Show child attributes

location

object

Configurações de localização da requisição. Quando definidas, será usado um proxy apropriado, se disponível, e serão emuladas as configurações correspondentes de idioma e fuso horário. O padrão é "US" se não for especificado.

Show child attributes

removeBase64Images

boolean

padrão:true

Remove todas as imagens em base64 do resultado em markdown, que pode se tornar excessivamente longo. Isso não afeta os formatos html nem rawHtml. O texto alternativo da imagem permanece no resultado, mas a URL é substituída por um placeholder.

blockAds

boolean

padrão:true

Habilita o bloqueio de anúncios e de pop-ups de cookies.

proxy

enum<string>

padrão:auto

Especifica o tipo de proxy a ser utilizado.

basic: Proxies para scraping de sites sem soluções anti‑bot ou apenas com soluções anti‑bot básicas. Rápido e geralmente funciona.
enhanced: Proxies avançados para scraping de sites com soluções anti‑bot avançadas. Mais lento, porém mais confiável em alguns sites. Pode custar até 5 créditos por requisição.
auto: O Firecrawl tentará automaticamente refazer o scraping com proxies enhanced se o proxy basic falhar. Se a nova tentativa com enhanced for bem-sucedida, 5 créditos serão cobrados pelo scraping. Se a primeira tentativa com basic for bem-sucedida, apenas o custo regular será cobrado.

Opções disponíveis:

basic,

enhanced,

auto

storeInCache

boolean

padrão:true

Se definido como true, a página será armazenada no índice e no cache do Firecrawl. Definir isso como false é útil se sua atividade de scraping puder levantar preocupações relacionadas à proteção de dados. O uso de alguns parâmetros associados a scraping sensível (por exemplo, ações, headers) fará com que esse parâmetro seja definido automaticamente como false.

zeroDataRetention

boolean

padrão:false

Se definido como true, isso ativará a retenção zero de dados para este scrape. Para habilitar esse recurso, entre em contato com help@firecrawl.dev

Resposta

Resposta bem-sucedida

success

boolean

data

object

Show child attributes

Introdução

Raspar em lote

Usando a API

Endpoints de scraping

Endpoints de pesquisa

Endpoints de mapeamento

Endpoints de rastreamento

Endpoints de navegador

Endpoints de agente

Endpoints de extração

Endpoints de conta

Payloads de webhook

Ações do navegador

Autorizações

Corpo

Resposta

Usando a API

Endpoints de scraping

Endpoints de pesquisa

Endpoints de mapeamento

Endpoints de rastreamento

Endpoints de navegador

Endpoints de agente

Endpoints de extração

Endpoints de conta

Payloads de webhook

​Ações do navegador

Autorizações

Corpo

Resposta

Ações do navegador