Scraping basique avec Firecrawl
/scrape
.
Extraction de PDF
parsers
(par exemple parsers: ["pdf"]
) lorsque vous voulez garantir l’analyse des PDF.
Options d’extraction
Formats (formats
)
- Type:
array
- Chaînes:
["markdown", "links", "html", "rawHtml", "summary"]
- Formats d’objet:
- JSON:
{ type: "json", prompt, schema }
- Capture d’écran:
{ type: "screenshot", fullPage?, quality?, viewport? }
- Suivi des changements:
{ type: "changeTracking", modes?, prompt?, schema?, tag? }
(requiertmarkdown
)
- JSON:
- Valeur par défaut:
["markdown"]
Contenu complet de la page vs contenu principal (onlyMainContent
)
- Type:
boolean
- Description: Par défaut, le scraper renvoie uniquement le contenu principal. Définissez sur
false
pour renvoyer l’intégralité du contenu de la page. - Par défaut:
true
- Type:
array
- Description: Balises/classes/ID HTML à inclure dans le scraping.
- Type:
array
- Description: Balises/classes/IDs HTML à exclure de l’extraction.
Attendre que la page soit prête (waitFor
)
- Type:
integer
- Description: Nombre de millisecondes à attendre avant le scraping (à utiliser avec parcimonie).
- Default:
0
Fraîcheur et cache (maxAge
)
- Type:
integer
(millisecondes) - Description: Si une version en cache de la page est plus récente que
maxAge
, Firecrawl la renvoie immédiatement ; sinon, il procède à une nouvelle extraction et met à jour le cache. Définissez0
pour toujours récupérer une version fraîche. - Par défaut:
172800000
(2 jours)
Délai d’expiration de la requête (timeout
)
- Type:
integer
- Description: Durée maximale en millisecondes avant l’interruption.
- Valeur par défaut:
30000
(30 secondes)
Analyse des PDF (parsers
)
- Type:
array
- Description: Contrôle le comportement d’analyse. Pour traiter des PDF, définissez
parsers: ["pdf"]
.
Actions (actions
)
- Type:
array
- Description: Séquence d’étapes du navigateur à exécuter avant l’extraction.
- Actions prises en charge:
wait
{ milliseconds }
click
{ selector }
write
{ selector, text }
press
{ key }
scroll
{ direction: "up" | "down" }
scrape
{ selector }
(extraire un sous-élément)executeJavascript
{ script }
pdf
(déclencher le rendu PDF dans certains parcours)
Exemple d’utilisation
cURL
- Renvoyer le contenu complet de la page en Markdown.
- Inclure le Markdown, le HTML brut, le HTML, les liens et une capture d’écran dans la réponse.
- Inclure uniquement les balises HTML
<h1>
,<p>
,<a>
et les éléments avec la classe.main-content
, tout en excluant les éléments avec les ID#ad
et#footer
. - Attendre 1000 millisecondes (1 seconde) avant d’extraire afin de laisser la page se charger.
- Définir la durée maximale de la requête d’extraction à 15000 millisecondes (15 secondes).
- Analyser explicitement les PDF via
parsers: ["pdf"]
.
Extraction JSON via les formats
formats
pour extraire des données structurées en un seul passage :
Point de terminaison /extract
Explorer plusieurs pages
/v2/crawl
.
cURL
Vérifier une tâche de crawl
cURL
Pagination/URL suivante
next
, une URL vers la page suivante des résultats.
Aperçu du prompt et des paramètres de crawl
prompt
en langage naturel pour permettre à Firecrawl de déterminer les paramètres de crawl. Prévisualisez-les d’abord :
cURL
Options du crawler
/v2/crawl
, vous pouvez ajuster le comportement d’exploration avec :
includePaths
- Type:
array
- Description: Motifs regex à inclure.
- Example:
["^/blog/.*$", "^/docs/.*$"]
excludePaths
- Type:
array
- Description: Expressions régulières à exclure.
- Example:
["^/admin/.*$", "^/private/.*$"]
maxDiscoveryDepth
- Type:
integer
- Description: Profondeur maximale d’exploration pour découvrir de nouvelles URL.
limit
- Type:
integer
- Description: Nombre maximal de pages à explorer.
- Default:
10000
crawlEntireDomain
- Type:
boolean
- Description: Explorer via les pages sœurs/parentes pour couvrir l’ensemble du domaine.
- Default:
false
allowExternalLinks
- Type:
boolean
- Description: Suivre les liens vers des domaines externes.
- Default:
false
allowSubdomains
- Type:
boolean
- Description: Autoriser le suivi des sous-domaines du domaine principal.
- Default:
false
delay
- Type:
number
- Description: Délai en secondes entre les opérations de scraping.
- Default:
undefined
scrapeOptions
- Type:
object
- Description: Options du scraper (voir Formats ci-dessus).
- Example:
{ "formats": ["markdown", "links", {"type": "screenshot", "fullPage": true}], "includeTags": ["h1", "p", "a", ".main-content"], "excludeTags": ["#ad", "#footer"], "onlyMainContent": false, "waitFor": 1000, "timeout": 15000}
- Defaults:
formats: ["markdown"]
, mise en cache activée par défaut (maxAge ~ 2 jours)
Exemple d’usage
cURL
Cartographier les liens d’un site web
/v2/map
identifie les URL associées à un site web donné.
Utilisation
cURL
Options de mappage
search
- Type:
string
- Description: Filtre les liens contenant un texte donné.
limit
- Type:
integer
- Description: Nombre maximal de liens à renvoyer.
- Default:
100
sitemap
- Type:
"only" | "include" | "skip"
- Description: Contrôle l’utilisation du sitemap lors du mappage.
- Default:
"include"
includeSubdomains
- Type:
boolean
- Description: Inclure les sous-domaines du site.
- Default:
true