/parse の概要
/parse エンドポイントは、ローカルまたは非公開のドキュメントを、クリーンで LLM 向けのデータに変換します。multipart/form-data でファイルのバイト列をアップロードすると、読み順や表の構造を保持したまま、Markdown、JSON、HTML、リンク、画像、または要約を取得できます。
- PDF、DOCX、XLSX、HTML などを Markdown または構造化 JSON に変換
- Rust ベースのエンジンにより、解析を最大 5 倍高速化
- 1 リクエストあたり 50 MB までのファイルに対応
- ゼロデータ保持をサポート
/parse を使うタイミング
/parse を使用します。ドキュメントを指す公開 URL がある場合は、/scrape を優先してください。拡張子または Content-Type からファイル形式を自動判別し、/parse と同じように解析します。
| ソース | エンドポイント |
|---|---|
ドキュメントを指す公開 URL (例: https://example.com/report.pdf) | POST /scrape |
| ローカルファイルまたは非公開のバイト列 (PDF、DOCX、XLSX、HTML、…) | POST /parse |
パース
/parse エンドポイント
multipart/form-data 形式で、必須の file パートと、任意の options JSON パートを含みます。
対応している拡張子: .html, .htm, .pdf, .docx, .doc, .odt, .rtf, .xlsx, .xls.
使用例
レスポンス
オプション
/parse は、options フィールドでスクレイピングのオプションの一部を受け付けます。一般的な設定は次のとおりです。
formats: 出力フォーマットの配列。デフォルトは["markdown"]。対応フォーマット:markdown、html、rawHtml、links、images、summary、json(スキーマまたはプロンプト付き) 。onlyMainContent: ドキュメントのメインコンテンツのみを返します。デフォルトはtrue。includeTags/excludeTags: タグ単位での含める/除外の指定 (HTML 入力) 。timeout: リクエストのタイムアウト (ミリ秒) 。デフォルトは30000、最大300000。parsers: ファイル解析の制御。PDF の場合は、{ "type": "pdf", "mode": "fast" | "auto" | "ocr", "maxPages": <int> }を設定します。
/parse は、actions、waitFor、location、mobile、change tracking などのブラウザ専用オプションには対応していません。PDFパーサーのモード
cURL
fast: テキストのみを提取する最速の方法です。auto(デフォルト) : テキスト優先で処理し、画像のみのページでは OCR にフォールバックします。ocr: すべてのページで OCR を実行します — スキャン文書に使用してください。
構造化JSON出力
cURL
考慮事項
- 1 リクエストあたりの最大ファイルサイズは 50 MB です。
ocrモードで非常に大きい PDF やスキャンされた PDF をパースする場合、時間がかかることがあります。timeoutを長めに設定するか、maxPagesを使って処理範囲を制限してください。- 複数ファイルを扱う場合は、各ファイルに対して
/parseを並列に呼び出してください。バッチアップロード用のバリアントはありません。
Firecrawl APIキー が必要な AIエージェントですか?自動オンボーディング手順については、firecrawl.dev/agent-onboarding/SKILL.md を参照してください。

