メインコンテンツへスキップ
Firecrawl は強力なドキュメント解析機能を備えており、さまざまなドキュメントフォーマットから構造化コンテンツを抽出できます。この機能は、スプレッドシートや Word 文書などのファイルを処理する際に特に有用です。

サポートされているドキュメントフォーマット

Firecrawl は現在、以下のドキュメントフォーマットをサポートしています:
  • Excel スプレッドシート.xlsx, .xls
    • 各ワークシートを HTML テーブルに変換します
    • ワークシートはシート名の H2 見出しで区切られます
    • セルの書式とデータ型を保持します
  • Word ドキュメント.docx, .doc, .odt, .rtf
    • ドキュメント構造を保ちながらテキストコンテンツを抽出します
    • 見出し、段落、リスト、表を保持します
    • 基本的な書式とスタイルを保持します
  • PDF ドキュメント.pdf
    • レイアウト情報とともにテキストコンテンツを抽出します
    • セクションや段落を含むドキュメント構造を保持します
    • テキストベースおよびスキャン PDF の両方に対応します(OCR 対応)
    • 料金は1ページあたり1クレジットです。詳細は Pricing を参照してください。

ドキュメント解析の使い方

Firecrawl のドキュメント解析は、サポート対象のドキュメントタイプを指す URL を指定すると自動的に実行されます。システムは、URL の拡張子または Content-Type ヘッダーに基づいてファイルタイプを検出し、適切に処理します。

例: Excel ファイルのスクレイピング

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

例:Word ドキュメントのスクレイピング

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

出力形式

サポートされているすべてのドキュメントタイプは、クリーンで構造化されたMarkdownに変換されます。たとえば、複数のシートを持つ Excel ファイルは、次のように変換されることがあります。
## Sheet1

| Name  | Value |
|-------|-------|
| Item 1 | 100   |
| Item 2 | 200   |

## Sheet2

| Date       | Description  |
|------------|--------------|
| 2023-01-01 | First quarter|
I