
欢迎使用 Firecrawl
如何使用?
- API: 文档
- SDK: Python、Node
- LLM 框架: LangChain(Python)、LangChain(JS)、LlamaIndex、Crew.ai、Composio、PraisonAI、Superinterface、Vectorize
- 低代码框架: Dify、Langflow、Flowise AI、Cargo、Pipedream
- 社区 SDK: Go、Rust(v1)
- 其他: Zapier、Pabbly Connect
- 自托管: 请参考此处的指南。
API Key
功能
- Scrape: 抓取一个 URL,并以适用于 LLM 的格式获取其内容(Markdown、摘要、通过 JSON 模式 提供的结构化数据、截图、HTML)
- Crawl: 抓取网页上的所有 URL,并以适用于 LLM 的格式返回内容
- Map: 输入一个网站,极速获取该网站的所有 URL
- Search: 搜索全网,并获取结果的完整内容
- Extract: 使用 AI 从单页、多页或整站提取结构化数据。
强大功能
- 适配 LLM 的 formats:markdown、summary、structured data、screenshot、HTML、links、metadata、images
- 解决棘手问题:proxies、anti-bot 机制、动态内容(JS 渲染)、输出解析、编排
- 极速:数秒内返回结果——为高速度与高吞吐场景而生。
- 高度可定制:排除标签、通过自定义 headers 爬取登录后页面、设置最大爬取深度等……
- 媒体解析:PDF、DOCX、图像。
- 可靠性优先:旨在获取所需数据——再难也能拿到。
- actions:在提取数据前执行 click、scroll、input、wait 等操作
安装 Firecrawl
抓取
scrape 方法。该方法接收 URL 作为参数,并以字典形式返回抓取的数据。
响应
各 SDK 将直接返回数据对象。cURL 将按下方所示原样返回有效载荷。爬取
用法
start crawl 函数,将返回一个 ID,你可以据此查询爬取任务的状态。
获取爬取进度
响应
next URL 参数。你需要请求该 URL 以获取下一段 10MB 的数据。若没有 next 参数,则表示爬取数据已结束。
JSON 模式
JSON
搜索
- 选择特定输出格式(Markdown、HTML、链接、截图)
- 选择特定来源(网页、新闻、图片)
- 通过可自定义参数(如位置等)进行网页搜索
响应
SDK 将直接返回数据对象;cURL 将返回完整的有效负载。JSON
无需 schema 的抽取
prompt,即可在没有 schema 的情况下进行抽取。LLM 会自行决定数据结构。
JSON
使用操作与页面交互
wait 操作,以留出足够的页面加载时间。
示例
输出
开源 vs 云端

