サポートされているドキュメントフォーマット
-
Excel スプレッドシート(
.xlsx
,.xls
)- 各ワークシートを HTML テーブルに変換します
- ワークシートはシート名の H2 見出しで区切られます
- セルの書式とデータ型を保持します
-
Word ドキュメント(
.docx
,.doc
,.odt
,.rtf
)- ドキュメント構造を保ちながらテキストコンテンツを抽出します
- 見出し、段落、リスト、表を保持します
- 基本的な書式とスタイルを保持します
-
PDF ドキュメント(
.pdf
)- レイアウト情報とともにテキストコンテンツを抽出します
- セクションや段落を含むドキュメント構造を保持します
- テキストベースおよびスキャン PDF の両方に対応します(OCR 対応)
- 料金は1ページあたり1クレジットです。詳細は Pricing を参照してください。
ドキュメント解析の使い方
例: Excel ファイルのスクレイピング
Node
例:Word ドキュメントのスクレイピング
Node