Passer au contenu principal
Le masquage des PII remplace les informations permettant d’identifier une personne dans le markdown renvoyé avant que vous ne l’envoyiez à des agents, à des journaux, à des bases vectorielles ou à des pipelines d’analyse.

Comment ça marche

Définissez redactPII: true dans une requête de scraping. Firecrawl masque les informations personnelles identifiables du markdown généré et renvoie la version masquée dans markdown. Vous n’avez pas besoin de transmettre formats ; markdown est le format de sortie par défaut.
from firecrawl import Firecrawl

firecrawl = Firecrawl(api_key="fc-YOUR_API_KEY")

doc = firecrawl.scrape(
    "https://example.com/contact",
    redact_pii=True,
)

print(doc.markdown)

Options de masquage

Pour la plupart des requêtes, utilisez redactPII: true. Pour ajuster le masquage, passez un objet d’options :
{
  "redactPII": {
    "mode": "accurate",
    "entities": ["EMAIL", "PHONE", "SECRET"],
    "replaceStyle": "tag"
  }
}
OptionValeursPar défautDescription
modeaccurate, aggressive, fastaccurateStratégie de masquage. accurate utilise uniquement le modèle, aggressive améliore le rappel grâce à des heuristiques supplémentaires, et fast évite l’appel au modèle.
entitiesPERSON, EMAIL, PHONE, LOCATION, FINANCIAL, SECRETToutes les entitésLimite le masquage à certaines catégories d’entités.
replaceStyletag, mask, removetagRemplace les segments par des balises comme <EMAIL>, les masque avec * ou supprime complètement les caractères.
Le CLI Firecrawl et le serveur MCP proposent un masquage booléen simple. Des options avancées sont disponibles via l’API et les SDKs, qui exposent l’objet d’options redactPII complet.

Réponse

Lorsque le masquage réussit, markdown contient le contenu masqué :
{
  "success": true,
  "data": {
    "markdown": "Contact us at <EMAIL> or <PHONE>.",
    "metadata": {
      "sourceURL": "https://example.com/contact"
    }
  }
}
Pour un affichage en ligne de commande, redirigez le markdown vers le moteur de rendu de votre choix :
cURL
curl -X POST https://api.firecrawl.dev/v2/scrape \
  -H "Authorization: Bearer $FIRECRAWL_API_KEY" \
  -H "Content-Type: application/json" \
  --data '{
    "url": "https://dlptest.com/sample-data.pdf",
    "redactPII": true
  }' | jq -r ".data.markdown" | glow

Facturation

Le masquage des PII coûte 5 crédits par page : 1 crédit de scrape de base, plus 4 crédits supplémentaires pour le masquage. Pour les PDF analysés, chaque page PDF supplémentaire consomme toujours le crédit normal d’analyse PDF et entraîne également le supplément de masquage.

Disponibilité

Le masquage des PII est pris en charge partout où Firecrawl accepte des options de scrape :
  • Scrape - définissez redactPII dans /v2/scrape.
  • Crawl, extraction par lot et recherche - passez redactPII dans scrapeOptions.
  • Parse - passez redactPII dans le JSON options du multipart.
  • SDKs - Python utilise redact_pii ; JavaScript et les autres SDKs utilisent redactPII ou la casse native de leurs options.
  • CLI - passez --redact-pii à firecrawl scrape.
  • serveur MCP - incluez "redactPII": true dans les arguments de l’outil firecrawl_scrape pour un masquage booléen simple.
Êtes-vous un agent IA qui a besoin d’une clé API Firecrawl ? Consultez firecrawl.dev/agent-onboarding/SKILL.md pour obtenir les instructions d’intégration automatisée.