Fonctionnement

Firecrawl met en cache les pages déjà extraites et, par défaut, renvoie une copie récente lorsqu’elle est disponible.
  • Actualisation par défaut : maxAge = 172800000 ms (2 jours). Si la copie en cache est plus récente, elle est renvoyée instantanément ; sinon, Firecrawl relance une extraction et met à jour le cache.
  • Forcer du frais : Définissez maxAge: 0 pour toujours ré-extraire.
  • Ignorer le cache : Définissez storeInCache: false si vous ne souhaitez pas stocker les résultats d’une requête.
Obtenez vos résultats jusqu’à 500 % plus rapidement lorsque vous n’avez pas besoin des données les plus récentes. Contrôlez l’actualité via maxAge :
  1. Retour instantané si une version récente de la page est disponible
  2. Extraction à jour uniquement si notre version est plus ancienne que l’âge spécifié
  3. Gagnez du temps — les résultats reviennent en millisecondes plutôt qu’en secondes

Quand l’utiliser

Idéal pour :
  • Documentation, articles, pages produit
  • Traitements par lots
  • Développement et tests
  • Création de bases de connaissances
À éviter :
  • Données en temps réel (cours boursiers, scores en direct, dernières actualités)
  • Contenu fréquemment mis à jour
  • Applications sensibles au facteur temps

Utilisation

Ajoutez maxAge à votre requête de scraping. Les valeurs sont en millisecondes (p. ex. 3600000 = 1 heure).
from firecrawl import Firecrawl

firecrawl = Firecrawl(api_key="fc-YOUR_API_KEY")

# Use cached data if it's less than 1 hour old (3600000 ms)
# This can be 500% faster than a fresh scrape!
scrape_result = firecrawl.scrape(
    'https://firecrawl.dev', 
    formats=['markdown'],
    maxAge=3600000  # 1 hour in milliseconds
)

print(scrape_result['markdown'])

Valeurs courantes de maxAge

Voici quelques valeurs de référence utiles :
  • 5 minutes : 300000 — pour du contenu semi‑dynamique
  • 1 heure : 3600000 — pour du contenu mis à jour chaque heure
  • 1 jour : 86400000 — pour du contenu mis à jour quotidiennement
  • 1 semaine : 604800000 — pour du contenu relativement statique

Impact sur les performances

Avec maxAge activé :
  • Des temps de réponse jusqu’à 500 % plus rapides pour le contenu récent
  • Des résultats instantanés plutôt que d’attendre de nouveaux scrapes

Notes importantes

  • Par défaut : maxAge est 172800000 (2 jours)
  • Actualisé si nécessaire : si nos données sont plus anciennes que maxAge, nous réexécutons automatiquement le scraping
  • Aucune donnée périmée : vous ne recevrez jamais de données plus anciennes que le maxAge que vous avez spécifié

Exploration plus rapide

Les mêmes gains de vitesse s’appliquent lors de l’exploration de plusieurs pages. Utilisez maxAge dans scrapeOptions pour récupérer des résultats en cache pour les pages que nous avons traitées récemment.
from firecrawl import Firecrawl

firecrawl = Firecrawl(api_key="fc-YOUR_API_KEY")

# Crawl avec mise en cache du scraping — 500 % plus rapide pour les pages vues récemment
crawl_result = firecrawl.crawl(
    'https://firecrawl.dev', 
    limit=100,
    scrape_options={
        formats=['markdown'],
        maxAge=3600000  # Utiliser les données en cache si elles ont moins d’une heure
    }
)

for page in crawl_result['data']:
    print(f"URL : {page['metadata']['sourceURL']}")
    print(f"Contenu : {page['markdown'][:200]}...")
Avec maxAge, chaque page de votre crawl profitera d’une accélération de 500 % si nous disposons de données récentes en cache pour cette page. Commencez à utiliser maxAge dès aujourd’hui pour des scrapes et des crawls nettement plus rapides !