Scraping basique avec Firecrawl
/scrape.
Extraction de PDF
parsers (par exemple parsers: ["pdf"]) lorsque vous voulez garantir l’analyse des PDF.
Options d’extraction
Formats (formats)
- Type:
array - Chaînes:
["markdown", "links", "html", "rawHtml", "summary", "images"] - Formats d’objet:
- JSON :
{ type: "json", prompt, schema } - Capture d’écran :
{ type: "screenshot", fullPage?, quality?, viewport? } - Suivi des modifications :
{ type: "changeTracking", modes?, prompt?, schema?, tag? }(nécessitemarkdown)
- JSON :
- Par défaut:
["markdown"]
Contenu complet de la page vs contenu principal (onlyMainContent)
- Type:
boolean - Description: Par défaut, le scraper renvoie uniquement le contenu principal. Définissez sur
falsepour renvoyer l’intégralité du contenu de la page. - Par défaut:
true
- Type:
array - Description: Balises/classes/ID HTML à inclure dans le scraping.
- Type:
array - Description: Balises/classes/IDs HTML à exclure de l’extraction.
Attendre que la page soit prête (waitFor)
- Type:
integer - Description: Nombre de millisecondes à attendre avant le scraping (à utiliser avec parcimonie).
- Default:
0
Fraîcheur et cache (maxAge)
- Type:
integer(millisecondes) - Description: Si une version en cache de la page est plus récente que
maxAge, Firecrawl la renvoie immédiatement ; sinon, il procède à une nouvelle extraction et met à jour le cache. Définissez0pour toujours récupérer une version fraîche. - Par défaut:
172800000(2 jours)
Délai d’expiration de la requête (timeout)
- Type:
integer - Description: Durée maximale en millisecondes avant l’interruption.
- Valeur par défaut:
30000(30 secondes)
Analyse des PDF (parsers)
- Type:
array - Description: Contrôle le comportement d’analyse. Pour traiter des PDF, définissez
parsers: ["pdf"].
Actions (actions)
- Type:
array - Description: Séquence d’étapes du navigateur à exécuter avant l’extraction.
- Actions prises en charge:
wait{ milliseconds }click{ selector }write{ selector, text }press{ key }scroll{ direction: "up" | "down" }scrape{ selector }(extraire un sous-élément)executeJavascript{ script }pdf(déclencher le rendu PDF dans certains parcours)
Exemple d’utilisation
cURL
- Renvoyer le contenu complet de la page en Markdown.
- Inclure le Markdown, le HTML brut, le HTML, les liens et une capture d’écran dans la réponse.
- Inclure uniquement les balises HTML
<h1>,<p>,<a>et les éléments avec la classe.main-content, tout en excluant les éléments avec les ID#adet#footer. - Attendre 1000 millisecondes (1 seconde) avant d’extraire afin de laisser la page se charger.
- Définir la durée maximale de la requête d’extraction à 15000 millisecondes (15 secondes).
- Analyser explicitement les PDF via
parsers: ["pdf"].
Extraction JSON via les formats
formats pour extraire des données structurées en un seul passage :
Point de terminaison /extract
Explorer plusieurs pages
/v2/crawl.
cURL
Vérifier une tâche de crawl
cURL
Pagination/URL suivante
next, une URL vers la page suivante des résultats.
Aperçu du prompt et des paramètres de crawl
prompt en langage naturel pour permettre à Firecrawl de déterminer les paramètres de crawl. Prévisualisez-les d’abord :
cURL
Options du crawler
/v2/crawl, vous pouvez ajuster le comportement d’exploration avec :
includePaths
- Type:
array - Description: Motifs regex à inclure.
- Example:
["^/blog/.*$", "^/docs/.*$"]
excludePaths
- Type:
array - Description: Expressions régulières à exclure.
- Example:
["^/admin/.*$", "^/private/.*$"]
maxDiscoveryDepth
- Type:
integer - Description: Profondeur maximale d’exploration pour découvrir de nouvelles URL.
limit
- Type:
integer - Description: Nombre maximal de pages à explorer.
- Default:
10000
crawlEntireDomain
- Type:
boolean - Description: Explorer via les pages sœurs/parentes pour couvrir l’ensemble du domaine.
- Default:
false
allowExternalLinks
- Type:
boolean - Description: Suivre les liens vers des domaines externes.
- Default:
false
allowSubdomains
- Type:
boolean - Description: Autoriser le suivi des sous-domaines du domaine principal.
- Default:
false
delay
- Type:
number - Description: Délai en secondes entre les opérations de scraping.
- Default:
undefined
scrapeOptions
- Type:
object - Description: Options du scraper (voir Formats ci-dessus).
- Example:
{ "formats": ["markdown", "links", {"type": "screenshot", "fullPage": true}], "includeTags": ["h1", "p", "a", ".main-content"], "excludeTags": ["#ad", "#footer"], "onlyMainContent": false, "waitFor": 1000, "timeout": 15000} - Defaults:
formats: ["markdown"], mise en cache activée par défaut (maxAge ~ 2 jours)
Exemple d’usage
cURL
Cartographier les liens d’un site web
/v2/map identifie les URL associées à un site web donné.
Utilisation
cURL
Options de mappage
search
- Type:
string - Description: Filtre les liens contenant un texte donné.
limit
- Type:
integer - Description: Nombre maximal de liens à renvoyer.
- Default:
100
sitemap
- Type:
"only" | "include" | "skip" - Description: Contrôle l’utilisation du sitemap lors du mappage.
- Default:
"include"
includeSubdomains
- Type:
boolean - Description: Inclure les sous-domaines du site.
- Default:
true

