/extract
simplifica a coleta de dados estruturados a partir de qualquer quantidade de URLs ou até de domínios inteiros. Forneça uma lista de URLs, opcionalmente com curingas (por exemplo, example.com/*
), e um prompt ou um esquema descrevendo as informações desejadas. O Firecrawl se encarrega de rastrear, analisar e consolidar conjuntos de dados, grandes ou pequenos.
O Extract tem cobrança diferente dos demais endpoints. Consulte os preços do Extract para mais detalhes.
Usando /extract
- Página única
Exemplo:https://firecrawl.dev/some-page
- Múltiplas páginas / Domínio completo
Exemplo:https://firecrawl.dev/*
/*
, o Firecrawl rastreia e processa automaticamente todas as URLs que conseguir descobrir nesse domínio e, em seguida, extrai os dados solicitados. Este recurso é experimental; envie um e-mail para help@firecrawl.com se tiver problemas.
Exemplo de uso
- urls: Uma lista com um ou mais URLs. Suporta curingas (
/*
) para uma varredura mais ampla. - prompt (Opcional, exceto se não houver schema): Um prompt em linguagem natural descrevendo os dados desejados ou como você quer que esses dados sejam estruturados.
- schema (Opcional, exceto se não houver prompt): Uma estrutura mais rígida caso você já conheça o layout JSON.
- enableWebSearch (Opcional): Quando
true
, a extração pode seguir links fora do domínio especificado.
Resposta (SDKs)
JSON
Status do job e conclusão
- Obter o status do job: Envie uma solicitação para o endpoint /extract/ para ver se o job ainda está em execução ou se foi concluído.
- Aguardar resultados: Se você usar o método padrão
extract
(Python/Node), o SDK aguarda e retorna os resultados finais. - Iniciar e depois consultar: Se você usar os métodos de início —
start_extract
(Python) oustartExtract
(Node) — o SDK retorna um ID de job imediatamente. Useget_extract_status
(Python) ougetExtractStatus
(Node) para verificar o progresso.
Este endpoint só funciona para jobs em andamento ou concluídos recentemente (nas últimas 24 horas).
Estados possíveis
- completed: A extração foi concluída com sucesso.
- processing: O Firecrawl ainda está processando sua solicitação.
- failed: Ocorreu um erro; os dados não foram totalmente extraídos.
- cancelled: A tarefa foi cancelada pelo usuário.
Exemplo pendente
JSON
Exemplo concluído
JSON
Extraindo sem um esquema
prompt
. O modelo subjacente escolherá uma estrutura para você, o que pode ser útil para solicitações mais exploratórias ou flexíveis.
JSON
Melhorando os resultados com busca na web
enableWebSearch = true
na sua requisição expandirá o crawl além do conjunto de URLs fornecido. Isso pode capturar informações de suporte ou relacionadas a partir de páginas linkadas.
Veja um exemplo que extrai informações sobre dash cams, enriquecendo os resultados com dados de páginas relacionadas:
Exemplo de resposta com pesquisa na web
JSON
Extração sem URLs
Limitações Conhecidas (Beta)
-
Cobertura de Sites em Grande Escala
A cobertura completa de sites muito grandes (por exemplo, “todos os produtos da Amazon”) em uma única requisição ainda não é suportada. -
Consultas Lógicas Complexas
Pedidos como “encontrar todas as postagens de 2025” podem não retornar de forma confiável todos os dados esperados. Capacidades de consulta mais avançadas estão em desenvolvimento. -
Inconsistências Ocasionais
Os resultados podem variar entre execuções, especialmente em sites muito grandes ou dinâmicos. Geralmente os detalhes essenciais são capturados, mas alguma variação é possível. -
Estado Beta
Como o endpoint/extract
ainda está em Beta, recursos e desempenho continuarão evoluindo. Agradecemos relatos de bugs e feedback para nos ajudar a melhorar.
Usando o FIRE-1
/extract
para tarefas de extração complexas que exigem navegar por várias páginas ou interagir com elementos.
Exemplo (cURL):
O FIRE-1 já está disponível e em versão de prévia.