Saltar al contenido principal
POST
/
crawl
Rastrear varias URL en función de opciones
curl --request POST \
  --url https://api.firecrawl.dev/v1/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "excludePaths": [
    "<string>"
  ],
  "includePaths": [
    "<string>"
  ],
  "maxDepth": 10,
  "maxDiscoveryDepth": 123,
  "ignoreSitemap": false,
  "ignoreQueryParameters": false,
  "limit": 10000,
  "allowBackwardLinks": false,
  "crawlEntireDomain": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "delay": 123,
  "maxConcurrency": 123,
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "zeroDataRetention": false
}
'
{
  "success": true,
  "id": "<string>",
  "url": "<string>"
}
Nota: Una nueva versión v2 de esta API ya está disponible con funciones y rendimiento mejorados.

Autorizaciones

Authorization
string
header
requerido

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Cuerpo

application/json
url
string<uri>
requerido

La URL base desde la que se iniciará el rastreo

excludePaths
string[]

Patrones de expresiones regulares para el pathname de la URL que excluyen del rastreo las URL que coincidan. Por ejemplo, si configuras "excludePaths": ["blog/.*"] para la URL base firecrawl.dev, se excluirán todos los resultados que coincidan con ese patrón, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.

includePaths
string[]

Patrones regex de rutas de URL que determinan qué URLs se incluyen en el rastreo. Solo las rutas que coincidan con los patrones especificados se incluirán en la respuesta. Por ejemplo, si configuras "includePaths": ["blog/.*"] para la URL base firecrawl.dev, solo se incluirán los resultados que coincidan con ese patrón, como https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.

maxDepth
integer
predeterminado:10

Profundidad absoluta máxima de rastreo desde la base de la URL introducida. Básicamente, es el número máximo de barras diagonales (/) que puede contener el pathname de una URL rastreada.

maxDiscoveryDepth
integer

Profundidad máxima de rastreo basada en el orden de descubrimiento. El sitio raíz y las páginas del mapa del sitio tienen una profundidad de descubrimiento de 0. Por ejemplo, si la configuras en 1 y habilitas ignoreSitemap, solo se rastreará la URL ingresada y todas las URL que estén enlazadas en esa página.

ignoreSitemap
boolean
predeterminado:false

Ignorar el sitemap del sitio web durante el rastreo

ignoreQueryParameters
boolean
predeterminado:false

No vuelvas a hacer scraping de la misma ruta con distintos parámetros de consulta (o sin parámetros)

limit
integer
predeterminado:10000

Número máximo de páginas a rastrear. El límite por defecto es 10.000.

⚠️ EN DESUSO: Usa 'crawlEntireDomain' en su lugar. Permite que el rastreador siga enlaces internos a URL hermanas o superiores, no solo a rutas hijas.

crawlEntireDomain
boolean
predeterminado:false

Permite que el rastreador siga enlaces internos a URLs del mismo nivel o superiores, no solo rutas hijas.

false: Solo rastrea URLs más profundas (hijas). → p. ej. /features/feature-1 → /features/feature-1/tips ✅ → No seguirá /pricing ni / ❌

true: Rastrea cualquier enlace interno, incluyendo del mismo nivel y superiores. → p. ej. /features/feature-1 → /pricing, /, etc. ✅

Usa true para lograr una cobertura interna más amplia, más allá de rutas anidadas.

Permite que el rastreador siga enlaces a sitios web externos.

allowSubdomains
boolean
predeterminado:false

Permite que el rastreador siga enlaces a subdominios del dominio principal.

delay
number

Pausa en segundos entre scrapes. Esto ayuda a respetar los límites de tasa del sitio web.

maxConcurrency
integer

Número máximo de scrapes concurrentes. Este parámetro te permite establecer un límite de concurrencia para este rastreo. Si no se especifica, el rastreo se ajusta al límite de concurrencia de tu equipo.

webhook
object

Un objeto de especificación de un webhook.

scrapeOptions
object
zeroDataRetention
boolean
predeterminado:false

Si se establece en true, no se conservarán datos de este rastreo. Para activar esta función, ponte en contacto con [email protected].

Respuesta

Respuesta exitosa

success
boolean
id
string
url
string<uri>