跳转到主要内容

Firecrawl 与 n8n 入门

网页采集自动化已成为现代企业的刚需。无论你要监控竞品价格、汇聚内容、获取潜在客户,还是用实时数据驱动 AI 应用,Firecrawl 搭配 n8n 都能在无需编程知识的前提下提供强大的解决方案。 Firecrawl and n8n integration 什么是 n8n? n8n 是一个开源的工作流自动化平台,可将不同的工具和服务连接起来。你可以把它看作一个可视化编程环境:将节点拖拽到画布上,连接它们,创建自动化流程。借助 400+ 集成,n8n 让你无需编写代码即可构建复杂的自动化。

为什么将 Firecrawl 与 n8n 搭配使用?

传统的网页抓取面临诸多挑战:网站结构一变更,自定义脚本就会失效;反爬系统会拦截自动化请求;重度依赖 JavaScript 的网站无法正确渲染;基础设施还需要持续运维。 Firecrawl 负责处理抓取端的技术复杂性,n8n 则提供自动化框架。二者结合,让你构建可直接用于生产的工作流,能够:
  • 可靠地从任意网站提取数据
  • 将抓取的数据对接到其他业务工具
  • 按计划运行或由事件触发
  • 从简单任务无缝扩展到复杂的数据管道
本指南将带你完成两个平台的设置,并从零开始搭建你的第一个抓取工作流。

步骤 1:创建你的 Firecrawl 账户

Firecrawl 为你的工作流提供网页抓取功能。现在设置你的账户并获取 API 凭据。

注册 Firecrawl

  1. 在浏览器中访问 firecrawl.dev
  2. 点击“Get Started”或“Sign Up”按钮
  3. 使用邮箱地址或 GitHub 账号创建账户
  4. 按提示完成邮箱验证

获取 API Key

登录后,你需要一个 API key 将 Firecrawl 连接到 n8n:
  1. 前往你的 Firecrawl 控制台
  2. 进入 API Keys 页面
  3. 点击“Create New API Key”
  4. 为密钥起一个具有描述性的名称(例如:“n8n Integration”)
  5. 复制生成的 API key 并妥善保存
Firecrawl api key section
你的 API key 类似密码。请妥善保管,切勿公开分享。你将在下一节用到此密钥。
注册 Firecrawl 时会提供免费额度,足以测试你的工作流并完成本教程。

步骤 2:设置 n8n

n8n 提供两种部署方式:云端托管或自托管。对于新手,使用云端版本是最快的入门途径。

选择你的 n8n 版本

n8n Cloud(推荐新手使用):
  • 无需安装
  • 提供免费套餐
  • 托管基础设施
  • 自动更新
自托管:
  • 完全掌控数据
  • 在你自己的服务器上运行
  • 需要安装 Docker
  • 适合对安全有特定要求的高级用户
选择最符合你需求的方案。两种方式都会进入同一套工作流编辑器界面。
  1. 访问 n8n.cloud
  2. 点击“Start Free”或“Sign Up”
  3. 使用邮箱或 GitHub 注册
  4. 完成验证流程
  5. 系统会将你带到 n8n 控制台
n8n Cloud 主页,展示注册选项 免费套餐提供构建和测试工作流所需的一切。若需要更多执行时间或高级功能,可随时升级。

选项 B:使用 Docker 自托管

如果您希望在自有基础设施上运行 n8n,可以使用 Docker 快速完成设置。 先决条件:
  • 计算机已安装 Docker Desktop
  • 具备基本的命令行/终端使用经验
安装步骤:
  1. 打开终端或命令提示符
  2. 创建一个 Docker 卷以持久化工作流数据:
docker volume create n8n_data
该数据卷用于存储你的工作流、凭据和执行历史,即使重启容器也会保留。
  1. 运行 n8n Docker 容器:
docker run -it --rm --name n8n -p 5678:5678 -v n8n_data:/home/node/.n8n docker.n8n.io/n8nio/n8n
终端显示正在执行的 docker 命令,n8n 正在启动
  1. 等待 n8n 启动。你会看到输出显示服务器已在运行
  2. 打开浏览器,访问 http://localhost:5678
  3. 使用邮箱注册,创建你的 n8n 账户
在 localhost:5678 的 n8n 自托管欢迎界面 你的自托管 n8n 实例已在本地运行。界面与 n8n Cloud 完全一致,因此无论你选择哪种方案,都可以继续按照本指南的其余部分操作。
--rm 标志会在你停止容器时自动删除容器,但你的数据会安全保存在 n8n_data 卷中。用于生产环境时,请参阅 n8n 自托管文档 了解更高级的配置选项。

了解 n8n 界面

首次登录 n8n 时,你会看到主仪表盘: n8n 仪表盘显示包含“Create new workflow”按钮的工作流列表视图 关键界面元素:
  • Workflows:已保存的自动化流程会显示在这里
  • Executions:工作流运行历史
  • Credentials:已存储的 API 密钥与身份验证令牌
  • Settings:账户与工作区设置
点击“Create New Workflow”打开工作流编辑器。

工作流画布

工作流编辑器是你构建自动化流程的地方: 空的 n8n 工作流画布,中央显示“+”按钮 重要元素:
  • 画布(Canvas):放置并连接节点的主区域
  • 添加节点按钮(+):点击以向工作流添加新节点
  • 节点面板(Node Panel):点击“+”后打开,显示所有可用节点
  • 执行工作流(Execute Workflow):手动运行工作流进行测试
  • 保存(Save):保存你的工作流配置
现在,通过添加 Firecrawl 节点来构建你的第一个工作流。

步骤 3:安装并配置 Firecrawl 节点

n8n 原生支持 Firecrawl。您将安装该节点,并使用之前创建的 API 密钥将其连接到您的 Firecrawl 帐户。

将 Firecrawl 节点添加到你的工作流

  1. 在新建的工作流画布中,点击中央的“+”按钮
  2. 右侧会打开节点选择面板
  3. 在顶部搜索框中输入“Firecrawl
  4. 你会在搜索结果中看到 Firecrawl 节点
Clicking the + button, typing "Firecrawl" in the search, and the Firecrawl node appearing
  1. 点击 Firecrawl 节点旁的“Install
  2. 等待安装完成(通常只需几秒)
  3. 安装完成后,点击 Firecrawl 节点将其添加到画布中
Firecrawl node now added to the canvas, showing as a box with the Firecrawl logo Firecrawl 节点会以带有 Firecrawl 标志的方框形式出现在你的画布上。该节点代表你工作流中的一次 Firecrawl 操作。

连接你的 Firecrawl API 密钥

在使用 Firecrawl 节点之前,你需要使用 API 密钥对其进行身份验证:
  1. 点击 Firecrawl 节点框,在右侧打开配置面板
  2. 在顶部你会看到一个 “Credential to connect with” 下拉菜单
  3. 首次使用时,点击 “Create New Credential”
Firecrawl 节点配置面板,显示包含 “Create New Credential” 选项的凭据下拉菜单
  1. 将打开凭据配置窗口
  2. 为该凭据输入名称(例如 “My Firecrawl Account”)
  3. 在 “API Key” 字段粘贴你的 Firecrawl API 密钥
  4. 点击底部的 “Save”
凭据现已保存在 n8n 中。之后使用 Firecrawl 节点时无需再次输入 API 密钥。

测试连接

让我们确认你的 Firecrawl 节点已正确连接:
  1. 在仍选中 Firecrawl 节点的情况下,查看配置面板
  2. 在“Resource”下拉菜单中选择“Scrape a url and get its content”
  3. 在“URL”字段中输入:https://firecrawl.dev
  4. 其余设置先保持默认
  5. 点击节点右下角的“Test step”按钮
选择 Scrape 操作,输入 example.com 的 URL,并点击 Test step 按钮 如果一切配置正确,你会在节点下方的输出面板中看到来自 example.com 的抓取结果。 恭喜!你的 Firecrawl 节点现已连接并正常工作。

步骤 4:创建你的 Telegram 机器人

在构建第一个工作流之前,你需要一个 Telegram 机器人来接收通知。Telegram 机器人免费,可通过 Telegram 的 BotFather 轻松创建。

使用 BotFather 创建机器人

  1. 在手机或桌面端打开 Telegram
  2. 搜索“@BotFather”(Telegram 的官方机器人)
  3. 点击“Start”与 BotFather 开始对话
  4. 发送命令 /newbot 创建新机器人
  5. BotFather 会让你为机器人选择一个名称(这是用户看到的显示名称)
  6. 输入类似“My Firecrawl Bot”的名称
  7. 接下来为机器人选择一个用户名。它必须以“bot”结尾(例如,“my_firecrawl_updates_bot”)
  8. 如果该用户名可用,BotFather 会创建你的机器人,并向你发送包含机器人令牌(token)的消息
使用 BotFather 创建机器人,展示完整对话流程
请妥善保存你的机器人令牌(token)。该令牌类似密码,允许 n8n 以你的机器人身份发送消息。切勿公开分享。

获取你的聊天 ID

要向自己发送消息,你需要 Telegram 聊天 ID:
  1. 打开浏览器并访问此 URL(将 YOUR_BOT_TOKEN 替换为你的实际 Bot Token):
    https://api.telegram.org/botYOUR_BOT_TOKEN/getUpdates
    
  2. 保持此浏览器标签页打开
  3. 在 Telegram 中搜索你刚创建的机器人的用户名
  4. 点击“Start”与机器人开始对话
  5. 向机器人发送任意消息(例如“hello”)
  6. 回到浏览器标签页并刷新页面
  7. 在 JSON 响应中查找 "chat":{"id": 字段
  8. "id": 后面的数字就是你的聊天 ID(例如 123456789
  9. 保存该聊天 ID 以备后用
Browser showing Telegram API getUpdates response with chat ID highlighted
你的聊天 ID 是你与该机器人会话的唯一标识符。你将使用它告诉 n8n 将消息发送到哪里。
现在你已经具备将 Telegram 集成到 n8n 工作流所需的一切。

步骤 5:用 Telegram 构建实用工作流

现在我们来构建三个真实场景的工作流,将信息直接推送到你的 Telegram。这些示例展示了不同的 Firecrawl 操作,以及如何将它们与 Telegram 通知集成。

示例 1:每日 Firecrawl 产品更新摘要

每天早晨在 Telegram 接收 Firecrawl 产品更新的每日摘要。 你将构建:
  • 每天上午 9 点抓取 Firecrawl 的产品更新博客
  • 使用 AI 生成内容摘要
  • 将摘要发送到你的 Telegram
步骤说明:
  1. 在 n8n 中创建一个新工作流
  2. 添加 Schedule Trigger 节点:
    • 点击画布上的“+”按钮
    • 搜索“Schedule Trigger
    • 配置:每天上午 9:00
Schedule Trigger configured for daily 9 AM execution
  1. 添加 Firecrawl 节点:
    • 点击 Schedule Trigger 旁边的“+
    • 搜索并添加“Firecrawl
    • 选择你的 Firecrawl 凭证
    • 配置:
      • Resource: Scrape a url and get its content
      • URL: https://www.firecrawl.dev/blog/category/product-updates
      • Formats: 选择“Summary”
Adding and configuring Firecrawl node with the blog URL and Summary format selected
  1. 添加 Telegram 节点:
    • 点击 Firecrawl 旁边的“+
    • 搜索“Telegram
    • 点击“Send a text message”将其添加到画布
  2. 设置 Telegram 凭证:
    • 点击 Telegram 节点打开其配置
    • 在“Credential to connect with”下拉菜单中,点击“Create New Credential
    • 粘贴你从 BotFather 获取的 bot token
    • 点击“Save
Telegram credential configuration with bot token field
  1. 配置 Telegram 消息:
    • Operation: Send Message
    • Chat ID: 输入你的 chat ID
    • Text: 先保留一个“hello”消息
    • 点击 Execute step 测试在接收来自 Firecrawl 的摘要时发送消息。
Configuring Telegram node and mapping the summary field to the message text
  • 现在基于 Firecrawl 的摘要结构,从 Firecrawl 节点输出中拖拽 summary 字段,将摘要添加到消息文本。
  1. 测试工作流:
    • 点击“Execute Workflow
    • 在 Telegram 中查看摘要消息
Complete workflow showing Schedule Trigger → Firecrawl → Telegram with all nodes connected
  1. 通过切换“Active”开关来激活工作流
你的 Telegram 机器人现在会在每天上午 9 点向你发送 Firecrawl 产品更新的每日摘要。

示例 2:AI 新闻搜索并发送到 Telegram

此工作流使用 Firecrawl 的 Search 操作查找 AI 新闻,并将格式化后的结果发送到 Telegram。 与示例 1 的关键区别:
  • 使用 Manual Trigger 而非 Schedule(按需运行)
  • 使用 Search 操作而非 Scrape
  • 包含一个 Code 节点以格式化多条结果
构建工作流:
  1. 创建一个新工作流并添加一个 Manual Trigger 节点
  2. 添加 Firecrawl 节点并使用以下设置:
    • Resource:Search,并可选地抓取搜索结果
    • Queryai news
    • Limit:5
Firecrawl Search node configuration with "ai news" query
  1. 添加一个 Code 节点以格式化搜索结果:
    • 选择 “Run Once for All Items”
    • 粘贴以下代码:
const results = $input.all();
let message = "最新 AI 新闻:\n\n";

results.forEach((item) => {
  const webData = item.json.data.web;
  webData.forEach((article, index) => {
    message += `${index + 1}. ${article.title}\n`;
    message += `${article.description}\n`;
    message += `${article.url}\n\n`;
  });
});

return [{ json: { message } }];
添加 Code 节点并粘贴格式化脚本
  1. 更新 Telegram 节点(使用已保存的凭据):
    • Text:从 Code 节点拖入 message 字段
完整的工作流运行,AI 新闻已发送到 Telegram
将 Manual Trigger 替换为 Schedule Trigger,以按设定的时间间隔自动获取 AI 新闻更新。

示例 3:AI 驱动的新闻摘要

此工作流在示例 2 的基础上引入 AI,使用 OpenAI 在发送到 Telegram 之前智能生成最新 AI 新闻的摘要。 与示例 2 的关键变化:
  • 添加 OpenAI 凭证 配置
  • 在 Code 和 Telegram 之间添加 AI Agent 节点
  • AI Agent 智能分析并总结所有新闻文章
  • Telegram 接收的是 AI 生成的摘要,而非原始新闻列表
修改工作流:
  1. 获取你的 OpenAI API 密钥
    • 前往 platform.openai.com/api-keys
    • 登录或创建账号
    • 点击“Create new secret key
    • 为其命名(例如,“n8n Integration”)
    • 立即复制 API 密钥(之后将无法再次查看)
OpenAI dashboard showing API key creation
  1. 添加并连接 AI Agent 节点
    • 在 Code 节点后点击“+
    • 搜索“Basic LLM Chain”或“AI Agent
    • 将 Code 节点中的 message 字段拖到 AI Agent 的输入提示字段
    • 选择 OpenAI 作为 LLM 提供方
Adding AI Agent node, dragging input from Code node, and connecting OpenAI as LLM
  1. 添加你的 OpenAI 凭证
    • 点击“Create New Credential”以添加 OpenAI 凭证
    • 粘贴你的 OpenAI API 密钥
    • 选择模型:gpt-5-mini(更具性价比)或 gpt-5(更强大)
    • 点击“Save
Adding OpenAI credentials to the AI Agent node
  1. 向 AI Agent 添加系统提示
    • 在 AI Agent 节点中,添加以下系统提示:
你是一名 AI 新闻分析师。请分析所提供的 AI 新闻文章,并生成简洁、
有见地的摘要,重点突出最重要的进展和趋势。
将相关主题归类整理,并说明这些进展的重要性及其背景。
摘要应保持对话式风格且引人入胜,控制在 3-4 段左右。
将系统提示添加到 AI Agent 节点
  1. 更新 Telegram 节点并测试
    • 更新 Telegram 节点:
      • Text:拖入 AI Agent 的输出(生成的摘要)
      • 移除与 Code 节点消息的旧映射
    • 点击“Execute Workflow”进行测试
    • AI 将分析所有新闻文章并生成摘要
    • 在 Telegram 中查看 AI 生成的摘要
完整工作流执行,AI 生成的摘要已发送至 Telegram
AI Agent 会接收所有已格式化的新闻文章并生成智能摘要,帮助你一目了然地把握趋势与重要进展。

了解 Firecrawl 操作

现在你已经搭建了一些工作流,我们来看看 n8n 中可用的各类 Firecrawl 操作。每种操作都面向特定的网页爬取场景而设计。

抓取一个 URL 并获取其内容

从单个网页提取内容,并以多种 formats 返回。 功能:
  • 抓取单个 URL
  • 返回干净的 markdown、HTML 或由 AI 生成的摘要
  • 可截取页面截图并提取链接
最适合:
  • 文章提取
  • 产品页面监控
  • 博文抓取
  • 生成页面摘要
示例用例: 每日博客摘要(如上方示例 1)

搜索,并可选抓取搜索结果

执行网页搜索,可选抓取内容并返回结果。 功能:
  • 搜索网页、新闻或图片
  • 返回标题、描述和 URL
  • 可选抓取结果的完整内容
适用于:
  • 研究自动化
  • 新闻监测
  • 趋势洞察
  • 寻找相关内容
示例用例: AI 新闻聚合(如上面的示例 2)

爬取网站

递归发现并抓取站点中的多个页面。 功能:
  • 自动跟踪链接
  • 一次操作抓取多个页面
  • 可按模式筛选 URL
适用场景:
  • 完整文档抽取
  • 网站归档
  • 多页面数据采集

网站映射与 URL 获取

在不抓取页面内容的情况下,返回站点上发现的所有 URL。 功能:
  • 发现站点内所有链接
  • 返回精洁的 URL 列表
  • 速度快、开销小
适用场景:
  • URL 发现
  • 生成网站地图
  • 规划大规模爬取

提取数据

使用 AI 按自定义提示或架构提取结构化信息。 功能:
  • AI 驱动的数据抽取
  • 以你指定的格式返回数据
  • 支持跨多个页面
适用于:
  • 自定义数据抽取
  • 构建数据库
  • 采集结构化信息

批量抓取

高效并行抓取多个 URL。 功能:
  • 同时处理多个 URL
  • 比循环更高效
  • 统一返回所有结果
最适用于:
  • 处理 URL 列表
  • 批量数据采集
  • 大规模抓取项目

工作流模板与示例

无需从零开始,您可以直接使用预置模板。n8n 社区已创建了大量可复制并自定义的 Firecrawl 工作流。

如何导入模板

要使用 n8n 社区的模板:
  1. 点击任一工作流模板链接
  2. 在模板页面点击“Import template to localhost:5678 self-hosted instance”按钮
  3. 工作流会在你的 n8n 实例中打开
  4. 为每个节点配置凭据
  5. 按你的使用场景自定义设置
  6. 激活该工作流
从 n8n.io 导入模板,显示导入按钮以及工作流在 n8n 中打开

最佳实践

请遵循以下指南,构建可靠且高效的工作流程:

测试与调试

  • 在启用计划任务前务必先手动测试工作流
  • 使用“Execute Workflow”按钮测试完整流程
  • 在每个节点检查输出数据以验证结果
  • 使用“Executions”选项卡查看历史运行并排查问题
Executions 选项卡显示带有时间戳和状态的工作流运行历史

错误处理

  • 添加 Error Trigger 节点以捕获并处理失败
  • 工作流失败时设置通知
  • 对非关键节点启用“Continue On Fail”设置
  • 定期监控工作流的执行情况

性能优化

  • 针对多个 URL 使用批量抓取(Batch Scrape),避免在循环中逐一处理
  • 设置合理的速率限制,避免给目标站点造成压力
  • 尽可能使用缓存,减少不必要的请求
  • 将高负载的工作流安排在非高峰时段

安全

  • 切勿在工作流配置中暴露 API 密钥
  • 使用 n8n 的凭证系统安全地存储认证信息
  • 公开分享工作流时请谨慎
  • 遵守目标网站的服务条款和 robots.txt

后续步骤

你现在已经具备使用 Firecrawl 和 n8n 构建网页抓取自动化的基础。接下来可按以下方式继续学习:

探索高级功能

  • 配置并使用 webhook,实现实时数据处理
  • 结合提示词与模式,尝试 AI 驱动的抽取
  • 构建包含分支逻辑的复杂多步工作流

加入社区

  1. 完成本指南中的示例工作流
  2. 基于社区库的模板做修改
  3. 构建一个可解决你工作中实际问题的工作流
  4. 探索 Firecrawl 的高级用法
  5. 贡献你的模板,帮助更多人
需要帮助? 如果你遇到困难或有疑问,Firecrawl 和 n8n 社区都非常活跃且乐于助人。构建自动化的过程中,欢迎随时寻求指导。

其他资源