Pular para o conteúdo principal
POST
/
extract
Extraia dados estruturados de páginas com LLMs
curl --request POST \
  --url https://api.firecrawl.dev/v1/extract \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "urls": [
    "<string>"
  ],
  "prompt": "<string>",
  "schema": {},
  "enableWebSearch": false,
  "ignoreSitemap": false,
  "includeSubdomains": true,
  "showSources": false,
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "ignoreInvalidURLs": false
}
'
{
  "success": true,
  "id": "<string>",
  "invalidURLs": [
    "<string>"
  ]
}
Observação: Uma nova versão v2 desta API agora está disponível, com recursos e desempenho aprimorados.

Autorizações

Authorization
string
header
obrigatório

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corpo

application/json
urls
string<uri>[]
obrigatório

As URLs das quais os dados serão extraídos. As URLs devem estar no formato glob.

prompt
string

Prompt para guiar o processo de extração

schema
object

Esquema que define a estrutura dos dados extraídos. Deve estar em conformidade com o JSON Schema.

Quando definido como true, a extração utilizará pesquisa na web para encontrar dados adicionais

ignoreSitemap
boolean
padrão:false

Quando definido como true, os arquivos sitemap.xml serão ignorados durante a varredura do site

includeSubdomains
boolean
padrão:true

Quando definido como verdadeiro, os subdomínios das URLs fornecidas também serão rastreados

showSources
boolean
padrão:false

Quando definido como true, as fontes usadas para extrair os dados serão incluídas na resposta como a chave sources

scrapeOptions
object
ignoreInvalidURLs
boolean
padrão:false

Se URLs inválidas forem especificadas no array urls, elas serão ignoradas. Em vez de fazer com que a requisição inteira falhe, será realizada uma extração usando apenas as URLs válidas restantes, e as URLs inválidas serão retornadas no campo invalidURLs da resposta.

Resposta

Extração concluída com sucesso

success
boolean
id
string
invalidURLs
string[] | null

Se ignoreInvalidURLs for true, este será um array contendo as URLs inválidas especificadas na requisição. Se não houver URLs inválidas, será um array vazio. Se ignoreInvalidURLs for false, este campo ficará undefined.