/parse 简介
/parse 端点可将本地或非公开文档转换为干净、适用于 LLM 的数据。通过 multipart/form-data 上传文件字节后,可返回 Markdown、JSON、HTML、链接、图片或摘要,并保留阅读顺序和表格。
- 将 PDF、DOCX、XLSX、HTML 等转换为 Markdown 或结构化 JSON
- 借助基于 Rust 的引擎,解析速度最高可提升 5 倍
- 每次请求的文件大小上限为 50 MB
- 支持 Zero Data Retention
何时使用 /parse
/parse。如果你有指向该文档的公开 URL,优先使用 /scrape——它会根据扩展名或内容类型自动检测文件类型,并以相同方式解析。
| 来源 | 端点 |
|---|---|
指向文档的公开 URL (例如 https://example.com/report.pdf) | POST /scrape |
| 本地文件或非公开字节数据 (PDF、DOCX、XLSX、HTML、…) | POST /parse |
解析
/parse 端点
multipart/form-data 格式,包含一个必填的 file 部分,以及一个可选的 options JSON 部分。
支持的扩展名: .html, .htm, .pdf, .docx, .doc, .odt, .rtf, .xlsx, .xls.
使用方式
响应
选项
/parse 可在 options 字段下接受部分 scrape 选项。常见设置如下:
formats:输出格式数组。默认值为["markdown"]。支持:markdown、html、rawHtml、links、images、summary和json(可搭配 schema 或 prompt) 。onlyMainContent:仅返回文档的主体内容。默认值为true。includeTags/excludeTags:按标签包含或排除内容 (适用于 HTML 输入) 。timeout:请求超时时间 (毫秒) 。默认值为30000,最大为300000。parsers:文件解析器控制选项。对于 PDF,设置为{ "type": "pdf", "mode": "fast" | "auto" | "ocr", "maxPages": <int> }。
/parse 不支持仅适用于浏览器的选项,例如 actions、waitFor、location、mobile 或变更追踪。PDF 解析模式
cURL
fast:仅提取文本,速度最快。auto(默认值) :优先提取文本,页面仅含图像时回退到 OCR。ocr:对每一页执行 OCR——适用于扫描文档。
结构化 JSON 输出
cURL
注意事项
- 每个请求的最大文件大小为 50 MB。
- 在
ocr模式下解析超大 PDF 或扫描版 PDF 可能需要更长时间——请增大timeout,或使用maxPages来限定处理范围。 - 对于多份文件,请对每个文件并行调用
/parse;不支持批量上传。
你是需要 Firecrawl API 密钥的 AI 代理吗?请参见 firecrawl.dev/agent-onboarding/SKILL.md 获取自动化引导说明。

