Crawl

Explorer plusieurs URL en fonction des options

curl --request POST \
  --url https://api.firecrawl.dev/v1/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "excludePaths": [
    "<string>"
  ],
  "includePaths": [
    "<string>"
  ],
  "regexOnFullURL": false,
  "maxDepth": 10,
  "maxDiscoveryDepth": 123,
  "ignoreSitemap": false,
  "ignoreQueryParameters": false,
  "limit": 10000,
  "allowBackwardLinks": false,
  "crawlEntireDomain": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "delay": 123,
  "maxConcurrency": 123,
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "zeroDataRetention": false
}
'

{
  "success": true,
  "id": "<string>",
  "url": "<string>"
}

POST

crawl

Explorer plusieurs URL en fonction des options

curl --request POST \
  --url https://api.firecrawl.dev/v1/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "excludePaths": [
    "<string>"
  ],
  "includePaths": [
    "<string>"
  ],
  "regexOnFullURL": false,
  "maxDepth": 10,
  "maxDiscoveryDepth": 123,
  "ignoreSitemap": false,
  "ignoreQueryParameters": false,
  "limit": 10000,
  "allowBackwardLinks": false,
  "crawlEntireDomain": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "delay": 123,
  "maxConcurrency": 123,
  "webhook": {
    "url": "<string>",
    "headers": {},
    "metadata": {},
    "events": [
      "completed"
    ]
  },
  "scrapeOptions": {
    "onlyMainContent": true,
    "includeTags": [
      "<string>"
    ],
    "excludeTags": [
      "<string>"
    ],
    "maxAge": 0,
    "headers": {},
    "waitFor": 0,
    "mobile": false,
    "skipTlsVerification": false,
    "timeout": 30000,
    "parsePDF": true,
    "jsonOptions": {
      "schema": {},
      "systemPrompt": "<string>",
      "prompt": "<string>"
    },
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "removeBase64Images": true,
    "blockAds": true,
    "proxy": "basic",
    "storeInCache": true,
    "formats": [
      "markdown"
    ],
    "changeTrackingOptions": {
      "modes": [
        "git-diff"
      ],
      "schema": {},
      "prompt": "<string>",
      "tag": null
    }
  },
  "zeroDataRetention": false
}
'

{
  "success": true,
  "id": "<string>",
  "url": "<string>"
}

Remarque : Une nouvelle version v2 de cette API est désormais disponible avec de nouvelles fonctionnalités et de meilleures performances.

Autorisations

Authorization

string

header

requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json

url

string<uri>

requis

L’URL de base à partir de laquelle démarrer le crawl

excludePaths

string[]

Motifs d’expressions régulières pour les chemins d’URL qui excluent de l’exploration les URL correspondantes. Par exemple, si vous définissez "excludePaths": ["blog/.*"] pour l’URL de base firecrawl.dev, tous les résultats correspondant à ce motif seront exclus, comme https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.

includePaths

string[]

Expressions régulières (regex) pour les chemins d’URL à inclure dans le crawl. Seuls les chemins qui correspondent aux motifs spécifiés seront inclus dans la réponse. Par exemple, si vous définissez "includePaths": ["blog/.*"] pour l’URL de base firecrawl.dev, seuls les résultats correspondant à ce motif seront inclus, comme https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap.

regexOnFullURL

boolean

défaut:false

Lorsque cette option est définie sur true, les expressions régulières includePaths et excludePaths sont évaluées par rapport à l’URL complète (y compris les paramètres de requête), et non uniquement au chemin de l’URL. Pratique lorsque vous devez filtrer des URL en fonction des chaînes de requête.

maxDepth

integer

défaut:10

Profondeur absolue maximale à explorer à partir de la base de l’URL saisie. En pratique, il s’agit du nombre maximal de barres obliques que peut contenir le chemin (pathname) d’une URL explorée.

maxDiscoveryDepth

integer

Profondeur maximale d’exploration basée sur l’ordre de découverte. Le site racine et les pages issues du sitemap ont une profondeur de découverte de 0. Par exemple, si vous la définissez à 1 et que vous activez ignoreSitemap, seules l’URL saisie et toutes les URL liées depuis cette page seront explorées.

ignoreSitemap

boolean

défaut:false

Ignorer le sitemap du site lors du crawl

ignoreQueryParameters

boolean

défaut:false

Ne relancez pas le scraping du même chemin avec des paramètres de requête différents (ou sans aucun paramètre)

limit

integer

défaut:10000

Nombre maximal de pages à explorer. La limite par défaut est de 10 000.

allowBackwardLinks

boolean

défaut:false

obsolète

⚠️ OBSOLÈTE : utilisez plutôt « crawlEntireDomain ». Permet au robot d'exploration de suivre les liens internes vers des URL au même niveau ou parentes, et pas seulement vers des chemins enfants.

crawlEntireDomain

boolean

défaut:false

Permet au crawler de suivre les liens internes vers des URL au même niveau ou de niveau supérieur, et pas seulement des chemins enfants.

false : Explore uniquement les URL plus profondes (enfants). → ex. /features/feature-1 → /features/feature-1/tips ✅ → Ne suivra pas /pricing ou / ❌

true : Explore tous les liens internes, y compris les URL au même niveau et de niveau supérieur. → ex. /features/feature-1 → /pricing, /, etc. ✅

Utilisez true pour une couverture interne plus large, au‑delà des chemins imbriqués.

allowExternalLinks

boolean

défaut:false

Permet au crawler de suivre des liens pointant vers des sites web externes.

allowSubdomains

boolean

défaut:false

Permet au crawler de suivre les liens vers les sous-domaines du domaine principal.

delay

number

Intervalle en secondes entre deux opérations de scraping. Cela permet de respecter les limites de fréquence des sites web.

maxConcurrency

integer

Nombre maximal d’opérations de scraping simultanées. Ce paramètre vous permet de définir une limite de parallélisme pour ce crawl. S’il n’est pas spécifié, le crawl respecte la limite de parallélisme de votre équipe.

webhook

object

Objet de spécification de webhook.

Show child attributes

scrapeOptions

object

Show child attributes

zeroDataRetention

boolean

défaut:false

Si cette valeur est définie sur true, aucune donnée ne sera conservée pour ce crawl. Pour activer cette fonctionnalité, veuillez contacter help@firecrawl.dev.

Réponse

Réponse en cas de succès

success

boolean

string

url

string<uri>

Récupérer les erreurs de Batch Scrape

Récupérer le statut d’un crawl

Utiliser l’API

Points de terminaison de scraping

Points de terminaison de crawl

Points de terminaison de cartographie

Points de terminaison de recherche

Points de terminaison d’extraction

Points de terminaison du compte

Autorisations

Corps

Réponse