支持的文档格式
-
Excel 电子表格(
.xlsx、.xls)- 每个工作表会转换为一个 HTML 表格
- 不同工作表以带有工作表名称的 H2 标题分隔
- 保留单元格格式和数据类型
-
Word 文档(
.docx、.doc、.odt、.rtf)- 在保留文档结构的同时提取文本内容
- 保留标题、段落、列表和表格
- 保留基础格式与样式
-
PDF 文档(
.pdf)- 提取包含布局信息的文本内容
- 保留包括章节与段落在内的文档结构
- 支持处理基于文本的 PDF 和扫描版 PDF(含 OCR)
- 支持通过
mode选项控制解析策略:fast(仅文本)、auto(文本并在需要时回退到 OCR,默认)、ocr(强制使用 OCR) - 费用为每页 1 个积分。详情请参阅 Pricing。
PDF 解析模式
parsers 选项来控制 PDF 的解析方式:
| Mode | Description |
|---|---|
auto | 优先尝试快速的文本解析,如有需要会回退到 OCR。这是默认模式。 |
fast | 仅进行基于文本的解析(嵌入文本)。这是最快的选项,但无法从扫描件或图片较多的页面中提取文本。 |
ocr | 对每一页都强制使用 OCR 解析。适用于扫描文档,或在 auto 误判页面类型时使用。 |
如何使用文档解析
示例:爬取 Excel 文件
Node
示例:抓取 Word 文档
Node

