Pular para o conteúdo principal
POST
/
crawl
Rastrear várias URLs de acordo com opções
curl --request POST \
  --url https://api.firecrawl.dev/v1/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "excludePaths": [
    "<string>"
  ],
  "includePaths": [
    "<string>"
  ],
  "maxDepth": 10,
  "maxDiscoveryDepth": 123,
  "ignoreSitemap": false,
  "ignoreQueryParameters": false,
  "limit": 10000,
  "allowBackwardLinks": false,
  "crawlEntireDomain": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "delay": 123,
  "maxConcurrency": 123,
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "zeroDataRetention": false
}
'
{
  "success": true,
  "id": "<string>",
  "url": "<string>"
}
Observação: uma nova versão v2 desta API já está disponível com recursos e desempenho aprimorados.

Autorizações

Authorization
string
header
obrigatório

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corpo

application/json
url
string<uri>
obrigatório

A URL base de onde o rastreamento será iniciado

excludePaths
string[]

Padrões de regex para o pathname da URL que excluem URLs correspondentes do crawl. Por exemplo, se você definir "excludePaths": ["blog/.*"] para a URL base firecrawl.dev, quaisquer resultados que corresponderem a esse padrão serão excluídos, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.

includePaths
string[]

Padrões de regex para o pathname da URL que definem quais URLs serão incluídas no rastreamento. Somente os caminhos que corresponderem aos padrões especificados serão incluídos na resposta. Por exemplo, se você definir "includePaths": ["blog/.*"] para a URL base firecrawl.dev, apenas resultados que correspondam a esse padrão serão incluídos, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.

maxDepth
integer
padrão:10

Profundidade absoluta máxima de rastreamento a partir da base da URL informada. Basicamente, é o número máximo de barras (/) que o pathname de uma URL coletada pode conter.

maxDiscoveryDepth
integer

Profundidade máxima de rastreamento com base na ordem de descoberta. O site raiz e as páginas do sitemap têm profundidade de descoberta igual a 0. Por exemplo, se você definir como 1 e ativar ignoreSitemap, você só irá rastrear a URL informada e todas as URLs que estiverem linkadas nessa página.

ignoreSitemap
boolean
padrão:false

Ignorar o sitemap do site durante o rastreamento

ignoreQueryParameters
boolean
padrão:false

Não reextraia o mesmo path com parâmetros de consulta diferentes (ou sem nenhum)

limit
integer
padrão:10000

Número máximo de páginas a serem rastreadas. O limite padrão é 10.000.

⚠️ DESCONTINUADO: Use "crawlEntireDomain" em vez disso. Permite que o crawler siga links internos para URLs irmãs ou URL de nível superior, não apenas caminhos filhos.

crawlEntireDomain
boolean
padrão:false

Permite que o rastreador siga links internos para URLs no mesmo nível (irmãs) ou URLs pai, não apenas caminhos filhos.

false: Somente rastreia URLs mais profundas (filhas). → ex.: /features/feature-1 → /features/feature-1/tips ✅ → Não seguirá /pricing ou / ❌

true: Rastreia qualquer link interno, incluindo URLs no mesmo nível e URLs pai. → ex.: /features/feature-1 → /pricing, /, etc. ✅

Use true para obter uma cobertura interna mais ampla, além de caminhos aninhados.

Permite que o rastreador siga links para sites externos.

allowSubdomains
boolean
padrão:false

Permite que o crawler rastreie links que apontam para subdomínios do domínio principal.

delay
number

Intervalo, em segundos, entre as coletas. Isso ajuda a respeitar os limites de requisições dos sites.

maxConcurrency
integer

Número máximo de raspagens simultâneas. Esse parâmetro permite definir um limite de concorrência para este rastreamento. Se não for especificado, o rastreamento usará o limite de concorrência da sua equipe.

webhook
object

Objeto de especificação de webhook.

scrapeOptions
object
zeroDataRetention
boolean
padrão:false

Se definido como true, não haverá retenção de dados para este crawl. Para habilitar esse recurso, entre em contato pelo e-mail [email protected]

Resposta

Resposta bem-sucedida

success
boolean
id
string
url
string<uri>