La façon la plus simple de passer d’une seule URL à une cartographie de l’ensemble du site. C’est extrêmement utile pour :
- Lorsque vous devez demander à l’utilisateur final de choisir quels liens scraper
- Lorsque vous devez connaître rapidement les liens d’un site
- Lorsque vous devez scraper des pages d’un site liées à un sujet spécifique (utilisez le paramètre
search
)
- Lorsque vous ne souhaitez scraper que certaines pages d’un site
point de terminaison /map
Permet de cartographier une URL et d’obtenir les URL du site web. Renvoie la plupart des liens présents sur le site.
# pip install firecrawl-py
from firecrawl import Firecrawl
firecrawl = Firecrawl(api_key="fc-VOTRE-CLE-API")
from firecrawl import Firecrawl
firecrawl = Firecrawl(api_key="fc-YOUR-API-KEY")
res = firecrawl.map(url="https://firecrawl.dev", limit=50, sitemap="include")
print(res)
Les SDK renvoient directement l’objet de données. cURL renvoie la charge utile exactement comme indiqué ci-dessous.
{
"success": true,
"links": [
{
"url": "https://docs.firecrawl.dev/features/scrape",
"title": "Scrape | Firecrawl",
"description": "Turn any url into clean data"
},
{
"url": "https://www.firecrawl.dev/blog/5_easy_ways_to_access_glm_4_5",
"title": "5 Easy Ways to Access GLM-4.5",
"description": "Discover how to access GLM-4.5 models locally, through chat applications, via the official API, and using the LLM marketplaces API for seamless integration i..."
},
{
"url": "https://www.firecrawl.dev/playground",
"title": "Playground - Firecrawl",
"description": "Preview the API response and get the code snippets for the API"
},
{
"url": "https://www.firecrawl.dev/?testId=2a7e0542-077b-4eff-bec7-0130395570d6",
"title": "Firecrawl - The Web Data API for AI",
"description": "The web crawling, scraping, and search API for AI. Built for scale. Firecrawl delivers the entire internet to AI agents and builders. Clean, structured, and ..."
},
{
"url": "https://www.firecrawl.dev/?testId=af391f07-ca0e-40d3-8ff2-b1ecf2e3fcde",
"title": "Firecrawl - The Web Data API for AI",
"description": "The web crawling, scraping, and search API for AI. Built for scale. Firecrawl delivers the entire internet to AI agents and builders. Clean, structured, and ..."
},
...
]
}
Le titre et la description ne sont pas toujours présents, car cela dépend du site web.
Cartographie avec recherche
La cartographie avec le paramètre search
vous permet de rechercher des URL spécifiques au sein d’un site web.
curl -X POST https://api.firecrawl.dev/v2/map \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer VOTRE_CLÉ_API' \
-d '{
"url": "https://firecrawl.dev",
"search": "docs"
}'
La réponse sera une liste classée de la plus pertinente à la moins pertinente.
{
"status": "succès",
"links": [
{
"url": "https://docs.firecrawl.dev",
"title": "Docs Firecrawl",
"description": "Documentation Firecrawl",
},
{
"url": "https://docs.firecrawl.dev/sdks/python",
"title": "SDK Firecrawl pour Python",
"description": "Documentation du SDK Firecrawl pour Python"
},
...
]
}
Indiquez le pays et les langues préférées pour obtenir un contenu pertinent en fonction de la zone ciblée et de vos préférences linguistiques, comme avec le point de terminaison /scrape.
Lorsque vous définissez les paramètres de localisation, Firecrawl utilise, si disponible, un proxy approprié et émule les paramètres de langue et de fuseau horaire correspondants. Par défaut, la localisation est définie sur « US » si aucun paramètre n’est spécifié.
Pour utiliser les paramètres de lieu et de langue, incluez l’objet location
dans le corps de votre requête avec les propriétés suivantes :
country
: code pays ISO 3166-1 alpha-2 (p. ex. « US », « AU », « DE », « JP »). Valeur par défaut : « US ».
languages
: tableau des langues et paramètres régionaux préférés pour la requête, par ordre de priorité. Par défaut : la langue du lieu spécifié.
from firecrawl import Firecrawl
firecrawl = Firecrawl(api_key="fc-YOUR-API-KEY")
res = firecrawl.map('https://example.com',
location={
'country': 'US',
'languages': ['en']
}
)
print(res)
Pour plus de détails sur les lieux pris en charge, consultez la documentation des proxies.
Ce point de terminaison privilégie la rapidité ; il se peut donc qu’il ne récupère pas tous les liens d’un site web. Nous travaillons à l’améliorer. Vos retours et suggestions sont les bienvenus.