Vai contribuir?
Hospedando o Firecrawl por conta própria
Por quê?
- Segurança e conformidade reforçadas: Ao auto-hospedar, você garante que todo o tratamento e processamento de dados esteja em conformidade com regulamentações internas e externas, mantendo informações sensíveis dentro da sua infraestrutura segura. Observe que o Firecrawl é um produto da Mendable e possui certificação SOC 2 Type II, o que significa que a plataforma segue altos padrões do setor para gestão da segurança de dados.
- Serviços personalizáveis: A hospedagem própria permite adaptar serviços, como o Playwright, para atender a necessidades específicas ou lidar com casos de uso particulares que podem não ser contemplados pela oferta padrão em nuvem.
- Aprendizado e contribuição para a comunidade: Ao configurar e manter sua própria instância, você obtém um entendimento mais profundo de como o Firecrawl funciona, o que também pode resultar em contribuições mais relevantes para o projeto.
Considerações
- Acesso limitado ao Fire-engine: Atualmente, instâncias auto-hospedadas do Firecrawl não têm acesso ao Fire-engine, que inclui recursos avançados para lidar com bloqueios de IP, mecanismos de detecção de robôs e mais. Isso significa que, embora você possa gerenciar tarefas básicas de scraping, cenários mais complexos podem exigir configuração adicional ou talvez não sejam suportados.
- Configuração manual necessária: Se você precisar usar métodos de scraping além das opções básicas de
fetch
e Playwright, será necessário configurá-los manualmente no arquivo.env
. Isso exige um entendimento mais profundo das tecnologias e pode demandar mais tempo de configuração.
Passos
- Primeiro, instale as dependências
- Defina as variáveis de ambiente
.env
no diretório raiz; você pode copiar o template em apps/api/.env.example
.
Para começar, não vamos configurar autenticação nem quaisquer subserviços opcionais (análise de PDF, suporte a bloqueio de JS, recursos de IA).
-
(Opcional) Executar com o TypeScript Playwright Service
-
Atualize o arquivo
docker-compose.yml
para alterar o serviço do Playwright:PARA -
Defina
PLAYWRIGHT_MICROSERVICE_URL
no seu arquivo.env
: -
Não se esqueça de configurar o servidor proxy no arquivo
.env
, se necessário.
-
Atualize o arquivo
-
Compile e execute os contêineres Docker:
http://localhost:3002
.
Você deverá ver a interface do Bull Queue Manager em http://localhost:3002/admin/@/queues
.
- (Opcional) Testar a API
Solução de problemas
O cliente Supabase não está configurado
Você está ignorando a autenticação
Contêineres Docker não iniciam
- Certifique-se de que todas as variáveis de ambiente necessárias estejam definidas corretamente no arquivo .env.
- Verifique se todos os serviços do Docker definidos em docker-compose.yml estão configurados corretamente e se as imagens necessárias estão disponíveis.
Problemas de conexão com o Redis
- Garanta que o serviço do Redis esteja ativo e em execução no seu ambiente Docker.
- Verifique se as variáveis REDIS_URL e REDIS_RATE_LIMIT_URL no seu arquivo .env apontam para a instância correta do Redis.
- Confira as configurações de rede e as regras de firewall que possam estar bloqueando a conexão com a porta do Redis.
O endpoint da API não responde
- Verifique se o serviço do Firecrawl está em execução conferindo o status do contêiner Docker.
- Confirme se as variáveis PORT e HOST no arquivo .env estão corretas e se nenhum outro serviço está usando a mesma porta.
- Verifique a configuração de rede para garantir que o host esteja acessível a partir do cliente que faz a requisição de API.