Saltar al contenido principal
La redacción de PII reemplaza la información de identificación personal en el markdown devuelto antes de enviarlo a agentes, registros, almacenes vectoriales o canalizaciones de análisis.

Cómo funciona

Establece redactPII: true en una solicitud de scraping. Firecrawl oculta la información sensible del markdown generado y devuelve la versión redactada en markdown. No necesitas especificar formats; markdown es la salida predeterminada.
from firecrawl import Firecrawl

firecrawl = Firecrawl(api_key="fc-YOUR_API_KEY")

doc = firecrawl.scrape(
    "https://example.com/contact",
    redact_pii=True,
)

print(doc.markdown)

Opciones de redacción

Para la mayoría de las solicitudes, usa redactPII: true. Para ajustar la redacción, pasa un objeto de opciones:
{
  "redactPII": {
    "mode": "accurate",
    "entities": ["EMAIL", "PHONE", "SECRET"],
    "replaceStyle": "tag"
  }
}
OpciónValoresPredeterminadoDescripción
modeaccurate, aggressive, fastaccurateEstrategia de redacción. accurate usa solo el modelo, aggressive aumenta la cobertura con heurísticas adicionales y fast omite la llamada al modelo.
entitiesPERSON, EMAIL, PHONE, LOCATION, FINANCIAL, SECRETTodas las entidadesLimita la redacción a categorías de entidades específicas.
replaceStyletag, mask, removetagReemplaza los fragmentos con etiquetas como <EMAIL>, los enmascara con * o elimina los caracteres por completo.
La CLI de Firecrawl y MCP Server ofrecen una redacción booleana simple. Las opciones avanzadas están disponibles a través de la API y los SDKs, que exponen el objeto completo de opciones redactPII.

Respuesta

Cuando la redacción se aplica correctamente, markdown contiene el contenido censurado:
{
  "success": true,
  "data": {
    "markdown": "Contact us at <EMAIL> or <PHONE>.",
    "metadata": {
      "sourceURL": "https://example.com/contact"
    }
  }
}
Para verlo en la línea de comandos, pasa el markdown a tu renderizador preferido mediante una tubería:
cURL
curl -X POST https://api.firecrawl.dev/v2/scrape \
  -H "Authorization: Bearer $FIRECRAWL_API_KEY" \
  -H "Content-Type: application/json" \
  --data '{
    "url": "https://dlptest.com/sample-data.pdf",
    "redactPII": true
  }' | jq -r ".data.markdown" | glow

Facturación

La redacción de PII cuesta 5 créditos por página: 1 crédito base de scraping más 4 créditos adicionales por la ocultación. En el caso de los PDF procesados, cada página adicional del PDF sigue consumiendo el crédito normal de procesamiento de PDF y también se le aplica el cargo adicional por ocultación.

Disponibilidad

La redacción de PII está disponible en cualquier lugar donde Firecrawl acepte opciones de scraping:
  • Scrape - establece redactPII en /v2/scrape.
  • Crawl, batch scrape, and search - pasa redactPII dentro de scrapeOptions.
  • Parse - pasa redactPII dentro del JSON multipart options.
  • SDKs - Python usa redact_pii; JavaScript y otros SDKs usan redactPII o la convención nativa de sus opciones.
  • CLI - pasa --redact-pii a firecrawl scrape.
  • MCP server - incluye "redactPII": true en los argumentos de la herramienta firecrawl_scrape para una redacción booleana simple.
¿Eres un agente de IA que necesita una clave de API de Firecrawl? Consulta firecrawl.dev/agent-onboarding/SKILL.md para obtener instrucciones de incorporación automatizada.