跳转到主要内容
Firecrawl 提供强大的文档解析能力,支持从多种文档 formats 中提取结构化内容。该功能对处理电子表格、Word 文档等文件尤其实用。

支持的文档格式

Firecrawl 目前支持以下文档 formats:
  • Excel 电子表格.xlsx.xls
    • 每个工作表会转换为一个 HTML 表格
    • 不同工作表以带有工作表名称的 H2 标题分隔
    • 保留单元格格式和数据类型
  • Word 文档.docx.doc.odt.rtf
    • 在保留文档结构的同时提取文本内容
    • 保留标题、段落、列表和表格
    • 保留基础格式与样式
  • PDF 文档.pdf
    • 提取包含布局信息的文本内容
    • 保留包括章节与段落在内的文档结构
    • 支持处理基于文本的 PDF 和扫描版 PDF(含 OCR)
    • 费用为每页 1 个积分。详情请参阅 Pricing

如何使用文档解析

当你提供指向受支持文档类型的 URL 时,Firecrawl 会自动进行文档解析。系统会根据 URL 的扩展名或 Content-Type 头检测文件类型,并据此进行处理。

示例:爬取 Excel 文件

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

示例:抓取 Word 文档

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

输出格式

所有受支持的文档类型都会转换为简洁、结构化的 Markdown。比如,一个包含多个工作表的 Excel 文件可能会被转换为:
## 工作表1

| 名称  | 数值 |
|-------|-------|
| 项目 1 | 100   |
| 项目 2 | 200   |

## 工作表2

| 日期       | 描述  |
|------------|--------------|
| 2023-01-01 | 第一季度|
I