インストール
Node(Node.js)
使い方
- firecrawl.dev から API キーを取得します。
- 環境変数
FIRECRAWL_API_KEYに API キーを設定するか、FirecrawlAppクラスにパラメータとして渡します。
Node
URLをスクレイピングする
scrapeUrl メソッドを使用します。URLを引数に取り、スクレイプしたデータをディクショナリ(辞書)として返します。
Node
ウェブサイトのクロール
crawlUrl メソッドを使用します。開始URLと任意のパラメータを引数に取ります。params 引数では、クロールする最大ページ数、許可ドメイン、出力フォーマットなど、クロールジョブの追加オプションを指定できます。自動/手動のページネーションや上限設定については Pagination を参照してください。
Node
クローリングを開始
startCrawl を使うと待機せずにジョブを開始できます。ステータス確認に使えるジョブの ID が返されます。完了まで処理をブロックするウェイターが必要な場合は crawl を使用してください。ページングの挙動と制限については Pagination を参照してください。
Node
クロールのステータス確認
checkCrawlStatus メソッドを使用します。ID を引数に取り、クロールジョブの現在のステータスを返します。
Node
クロールのキャンセル
cancelCrawl メソッドを使用します。startCrawl のジョブIDを引数に渡すと、キャンセル結果のステータスが返されます。
Node
ウェブサイトのマッピング
mapUrl メソッドを使用します。開始 URL を引数に取り、マッピング結果をディクショナリとして返します。
Node
WebSocket を使ったサイトのクロール
crawlUrlAndWatch メソッドを使用します。開始 URL と任意のパラメータを引数に取ります。params 引数では、クロールする最大ページ数、許可ドメイン、出力フォーマットなど、クロールジョブの追加オプションを指定できます。
Node
ページネーション
next URL を返します。Node SDK はデフォルトで自動ページネーションを行い、すべてのドキュメントを集約します。その場合は next が null になります。自動ページネーションを無効にしたり、上限を設定したりできます。
クロール
crawl を使うことです。あるいはジョブを開始して、ページングを手動で行ってください。
シンプルなクロール(自動ページ送り、デフォルト)
- 既定のフローはウェブサイトのクロールを参照してください。
ページネーション制御付きの手動クロール(単一ページ)
- ジョブを開始し、
autoPaginate: falseを指定して1ページずつ取得します。
Node
制限付きの手動クロール(自動ページネーション + 早期停止)
- 自動ページネーションはオンのまま、
maxPages、maxResults、またはmaxWaitTimeで早めに停止します。
Node
バッチスクレイプ
batchScrape を使うか、ジョブを開始して手動でページングします。
シンプルなバッチスクレイプ(自動ページネーション、デフォルト)
- 既定のフローは Batch Scrape を参照してください。
ページネーション制御による手動バッチスクレイプ(単一ページ)
- ジョブを開始し、
autoPaginate: falseを指定して1ページずつ取得します。
Node
制限付きの手動バッチスクレイプ(自動ページネーション+早期停止)
- 自動ページネーションは有効のまま、
maxPages、maxResults、またはmaxWaitTimeで早期停止します。
Node
エラーハンドリング
try/catch ブロックを使ってこれらのエラーを扱う方法を示しています。
