支持的文档格式
-
Excel 电子表格(
.xlsx
、.xls
)- 每个工作表会转换为一个 HTML 表格
- 不同工作表以带有工作表名称的 H2 标题分隔
- 保留单元格格式和数据类型
-
Word 文档(
.docx
、.doc
、.odt
、.rtf
)- 在保留文档结构的同时提取文本内容
- 保留标题、段落、列表和表格
- 保留基础格式与样式
-
PDF 文档(
.pdf
)- 提取包含布局信息的文本内容
- 保留包括章节与段落在内的文档结构
- 支持处理基于文本的 PDF 和扫描版 PDF(含 OCR)
- 费用为每页 1 个积分。详情请参阅 Pricing。
如何使用文档解析
示例:爬取 Excel 文件
Node
示例:抓取 Word 文档
Node