Scrape par lot

Autorisations

Authorization

string

header

requis

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Corps

application/json

urls

string<uri>[]

requis

L’URL à explorer

webhook

object

Un objet de spécification de webhook.

Show child attributes

maxConcurrency

integer

Nombre maximal d’opérations de scraping simultanées. Ce paramètre vous permet de définir une limite du nombre de scrapes exécutés en parallèle pour ce lot. S’il n’est pas renseigné, ce lot de scraping utilisera la limite de parallélisme définie pour votre équipe.

ignoreInvalidURLs

boolean

défaut:true

Si des URL non valides sont spécifiées dans le tableau urls, elles seront ignorées. Au lieu de faire échouer l’ensemble de la requête, une opération de scraping par lot sera créée avec les URL valides restantes, et les URL non valides seront renvoyées dans le champ invalidURLs de la réponse.

formats

Formats de sortie à inclure dans la réponse. Vous pouvez spécifier un ou plusieurs formats, soit sous forme de chaînes (par ex. 'markdown'), soit sous forme d’objets avec des options supplémentaires (par ex. { type: 'json', schema: {...} }). Certains formats requièrent la définition d’options spécifiques. Exemple : ['markdown', { type: 'json', schema: {...} }].

Show child attributes

onlyMainContent

boolean

défaut:true

Ne renvoyez que le contenu principal de la page, en excluant les en-têtes, éléments de navigation, pieds de page, etc.

includeTags

string[]

Balises à inclure dans le résultat.

excludeTags

string[]

Balises à exclure du résultat.

maxAge

integer

défaut:172800000

Retourne une version mise en cache de la page si elle est plus récente que cette durée (en millisecondes). Si une version mise en cache de la page est plus ancienne que cette valeur, la page sera à nouveau explorée (scrapée). Si vous n’avez pas besoin de données extrêmement récentes, activer cette option peut accélérer vos opérations de scraping de 500 %. Par défaut : 2 jours.

minAge

integer

Lorsqu’elle est définie, la requête vérifie uniquement le cache et ne déclenche jamais une nouvelle opération de scraping. La valeur est exprimée en millisecondes et indique l’âge minimal que doivent avoir les données en cache. Si des données en cache correspondantes existent, elles sont renvoyées instantanément. Si aucune donnée en cache n’est trouvée, une réponse 404 avec le code d’erreur SCRAPE_NO_CACHED_DATA est renvoyée. Définissez-la sur 1 pour accepter n’importe quelle donnée en cache, quel que soit son âge.

headers

object

En-têtes à inclure dans la requête. Peuvent être utilisés pour envoyer des cookies, un user-agent, etc.

waitFor

integer

défaut:0

Indiquez un délai en millisecondes avant de récupérer le contenu, afin de laisser à la page suffisamment de temps pour se charger. Ce temps d’attente s’ajoute à la fonction d’attente intelligente de Firecrawl.

mobile

boolean

défaut:false

Définissez cette option sur true pour simuler le scraping depuis un appareil mobile. Utile pour tester des pages responsives et prendre des captures d’écran en mode mobile.

skipTlsVerification

boolean

défaut:true

Ignorer la vérification du certificat TLS lors des requêtes.

timeout

integer

défaut:30000

Délai d’expiration de la requête (en millisecondes). La valeur par défaut est de 30 000 (30 secondes) et la valeur maximale est de 300 000 (300 secondes).

Plage requise: x <= 300000

parsers

object[]

Contrôle la façon dont les fichiers sont traités lors du scraping. Lorsque « pdf » est inclus (valeur par défaut), le contenu du PDF est extrait et converti au format Markdown, avec une facturation basée sur le nombre de pages (1 crédit par page). Lorsqu’un tableau vide est envoyé, le fichier PDF est renvoyé en encodage base64 avec un tarif fixe de 1 crédit pour l’ensemble du PDF.

Show child attributes

actions

Actions à effectuer sur la page avant de récupérer le contenu

Show child attributes

location

object

Paramètres de localisation pour la requête. Lorsqu’ils sont définis, un proxy approprié sera utilisé si disponible et les paramètres de langue et de fuseau horaire correspondants seront simulés. La valeur par défaut est « US » si aucun n’est spécifié.

Show child attributes

removeBase64Images

boolean

défaut:true

<[ { "key": "0", "translation": "Supprime toutes les images encodées en base64 de la sortie markdown, qui peut devenir excessivement longue. Cela n’affecte pas les formats html ou rawHtml. Le texte alternatif de l’image reste dans la sortie, mais l’URL est remplacée par un espace réservé." } ]</>

blockAds

boolean

défaut:true

Active le blocage des publicités et des fenêtres contextuelles de cookies.

proxy

enum<string>

défaut:auto

Spécifie le type de proxy à utiliser.

basic : Proxies pour le scraping de sites avec des solutions anti‑bots inexistantes ou basiques. Rapides et généralement efficaces.
enhanced : Proxies renforcés pour le scraping de sites avec des solutions anti‑bots avancées. Plus lents, mais plus fiables sur certains sites. Peut coûter jusqu’à 5 crédits par requête.
auto : Firecrawl réessaiera automatiquement le scraping avec des proxies renforcés si le proxy basic échoue. Si la nouvelle tentative avec le proxy renforcé réussit, 5 crédits seront facturés pour l’opération de scraping. Si la première tentative avec le proxy basic réussit, seul le coût standard sera facturé.

Options disponibles:

basic,

enhanced,

auto

storeInCache

boolean

défaut:true

Si ce paramètre est défini sur true, la page sera stockée dans l’index et le cache de Firecrawl. Le définir sur false est utile si votre activité de scraping peut soulever des problèmes de protection des données. L’utilisation de certains paramètres associés à un scraping sensible (par ex. actions, headers) forcera ce paramètre à false.

zeroDataRetention

boolean

défaut:false

Si cette option est définie sur true, cela activera l’absence totale de conservation des données pour cette opération de scraping par lot. Pour activer cette fonctionnalité, veuillez contacter help@firecrawl.dev

Réponse

Réponse en cas de succès

success

boolean

string

url

string<uri>

invalidURLs

string[] | null

Si ignoreInvalidURLs vaut true, ce champ est un tableau contenant les URL non valides qui ont été spécifiées dans la requête. S’il n’y a aucune URL non valide, ce sera un tableau vide. Si ignoreInvalidURLs vaut false, ce champ sera undefined.

Utilisation de l’API

Points de terminaison pour le scraping

Points de terminaison pour la recherche

Points de terminaison pour la cartographie

Points de terminaison pour l’exploration

Points de terminaison pour le navigateur

Points de terminaison pour les agents

Points de terminaison pour l’extraction

Points de terminaison pour le compte

Charges utiles des webhooks

Autorisations

Corps

Réponse