¿Quieres contribuir?
Autohospedar Firecrawl
¿Por qué?
- Mayor seguridad y cumplimiento: Al autoalojar, garantizas que el manejo y procesamiento de datos cumplan con normativas internas y externas, manteniendo la información sensible dentro de tu infraestructura segura. Ten en cuenta que Firecrawl es un producto de Mendable y cuenta con certificación SOC 2 Type II, lo que significa que la plataforma cumple con altos estándares del sector para la gestión de la seguridad de los datos.
- Servicios personalizables: El autoalojamiento permite adaptar servicios como Playwright a necesidades específicas o a casos de uso particulares que quizá no estén cubiertos por la oferta estándar en la nube.
- Aprendizaje y contribución a la comunidad: Al configurar y mantener tu propia instancia, obtienes una comprensión más profunda de cómo funciona Firecrawl, lo que también puede traducirse en contribuciones más valiosas al proyecto.
Consideraciones
- Acceso limitado a Fire-engine: Actualmente, las instancias autoalojadas de Firecrawl no tienen acceso a Fire-engine, que incluye funciones avanzadas para manejar bloqueos de IP, mecanismos de detección de bots y más. Esto significa que, aunque puedes gestionar tareas básicas de scraping, los escenarios más complejos podrían requerir configuración adicional o puede que no estén admitidos.
- Se requiere configuración manual: Si necesitas usar métodos de scraping más allá de las opciones básicas de
fetch
y Playwright, deberás configurarlos manualmente en el archivo.env
. Esto requiere un conocimiento más profundo de las tecnologías y podría implicar más tiempo de configuración.
Pasos
- Primero, instala las dependencias
- Configura las variables de entorno
.env
en el directorio raíz; puedes copiar la plantilla de apps/api/.env.example
.
Para empezar, no configuraremos la autenticación ni ningún servicio opcional (parsing de PDF, compatibilidad con bloqueo de JS, funciones de IA).
-
(Opcional) Ejecutar con el servicio Playwright en TypeScript
-
Actualiza el archivo
docker-compose.yml
para cambiar el servicio de Playwright:A -
Define
PLAYWRIGHT_MICROSERVICE_URL
en tu archivo.env
: -
No olvides configurar el servidor proxy en tu archivo
.env
según sea necesario.
-
Actualiza el archivo
-
Compila y ejecuta los contenedores de Docker:
http://localhost:3002
.
Deberías poder ver la interfaz de Bull Queue Manager en http://localhost:3002/admin/@/queues
.
- (Opcional) Probar la API
Solución de problemas
El cliente de Supabase no está configurado
Estás eludiendo la autenticación
Los contenedores de Docker no arrancan
- Asegúrate de que todas las variables de entorno necesarias estén correctamente definidas en el archivo .env.
- Verifica que todos los servicios de Docker definidos en docker-compose.yml estén correctamente configurados y que las imágenes necesarias estén disponibles.
Problemas de conexión con Redis
- Asegúrate de que el servicio de Redis esté en ejecución en tu entorno Docker.
- Verifica que REDIS_URL y REDIS_RATE_LIMIT_URL en tu archivo .env apunten a la instancia correcta de Redis.
- Revisa la configuración de red y las reglas del firewall que puedan bloquear la conexión al puerto de Redis.
El punto de conexión de la API no responde
- Asegúrate de que el servicio de Firecrawl esté en ejecución comprobando el estado del contenedor de Docker.
- Verifica que las variables PORT y HOST en tu archivo .env sean correctas y que ningún otro servicio esté usando el mismo puerto.
- Revisa la configuración de red para garantizar que el host sea accesible desde el cliente que realiza la solicitud a la API.