Extrair

Extraia dados estruturados de páginas com LLMs

curl --request POST \
  --url https://api.firecrawl.dev/v1/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "ignoreInvalidURLs": false
}
'

{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

POST

extract

Extraia dados estruturados de páginas com LLMs

curl --request POST \
  --url https://api.firecrawl.dev/v1/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "ignoreInvalidURLs": false
}
'

{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}

Observação: Uma nova versão v2 desta API agora está disponível, com recursos e desempenho aprimorados.

Autorizações

Authorization

string

header

obrigatório

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corpo

application/json

urls

string<uri>[]

obrigatório

As URLs das quais os dados serão extraídos. As URLs devem estar no formato glob.

prompt

string

Prompt para guiar o processo de extração

schema

object

Esquema que define a estrutura dos dados extraídos. Deve estar em conformidade com o JSON Schema.

enableWebSearch

boolean

padrão:false

Quando definido como true, a extração utilizará pesquisa na web para encontrar dados adicionais

ignoreSitemap

boolean

padrão:false

Quando definido como true, os arquivos sitemap.xml serão ignorados durante a varredura do site

includeSubdomains

boolean

padrão:true

Quando definido como verdadeiro, os subdomínios das URLs fornecidas também serão rastreados

showSources

boolean

padrão:false

Quando definido como true, as fontes usadas para extrair os dados serão incluídas na resposta como a chave sources

scrapeOptions

object

Show child attributes

ignoreInvalidURLs

boolean

padrão:false

Se URLs inválidas forem especificadas no array urls, elas serão ignoradas. Em vez de fazer com que a requisição inteira falhe, será realizada uma extração usando apenas as URLs válidas restantes, e as URLs inválidas serão retornadas no campo invalidURLs da resposta.

Resposta

Extração concluída com sucesso

success

boolean

string

invalidURLs

string[] | null

Se ignoreInvalidURLs for true, este será um array contendo as URLs inválidas especificadas na requisição. Se não houver URLs inválidas, será um array vazio. Se ignoreInvalidURLs for false, este campo ficará undefined.

Obter status da extração

Usando a API

Endpoints de scraping

Endpoints de rastreamento

Endpoints de mapeamento

Endpoints de busca

Endpoints de extração

Endpoints de conta

Autorizações

Corpo

Resposta