
欢迎使用 Firecrawl
如何使用?
- API:文档
- SDK:Python、Node
- LLM 框架:LangChain(Python)、LangChain(JS)、LlamaIndex、Crew.ai、Composio、PraisonAI、Superinterface、Vectorize
- 低代码框架:Dify、Langflow、Flowise AI、Cargo、Pipedream
- 社区 SDK:Go、Rust(v1)
- 其他:Zapier、Pabbly Connect
- 想要某个 SDK 或集成?欢迎提交 issue 告诉我们。
API Key
功能
- Scrape: 抓取一个 URL,并以适用于 LLM 的格式获取其内容(Markdown、摘要、通过 JSON 模式 提供的结构化数据、截图、HTML)
- Crawl: 抓取网页上的所有 URL,并以适用于 LLM 的格式返回内容
- Map: 输入一个网站,极速获取该网站的所有 URL
- Search: 搜索全网,并获取结果的完整内容
- Extract: 使用 AI 从单页、多页或整站提取结构化数据。
强大功能
- LLM 就绪的格式:Markdown、摘要、结构化数据、截图、HTML、链接、元数据
- 棘手事项:代理、反爬/反机器人机制、动态内容(JS 渲染)、输出解析、编排
- 极速表现:数秒内返回结果——为速度和高吞吐量场景而生。
- 可定制性:排除特定标签、通过自定义请求头爬取需认证的内容、设置最大爬取深度等……
- 媒体解析:PDF、DOCX、图像。
- 可靠性优先:无论多难,都能获取你所需的数据。
- 操作:在提取数据前可执行点击、滚动、输入、等待等
安装 Firecrawl
抓取
scrape
方法。该方法接收 URL 作为参数,并以字典形式返回抓取的数据。
响应
爬取
用法
start crawl
函数,将返回一个 ID
,你可以据此查询爬取任务的状态。
获取爬取进度
响应
next
URL 参数。你需要请求该 URL 以获取下一段 10MB 的数据。若没有 next
参数,则表示爬取数据已结束。
JSON 模式
JSON
搜索
- 选择特定输出格式(Markdown、HTML、链接、截图)
- 选择特定来源(网页、新闻、图片)
- 通过可自定义参数(如位置等)进行网页搜索
响应
JSON
无需 schema 的抽取
prompt
,即可在没有 schema 的情况下进行抽取。LLM 会自行决定数据结构。
JSON
使用操作与页面交互
wait
操作,以留出足够的页面加载时间。
示例
输出
开源 vs 云端
