インストール
Node(Node.js)
使い方
- firecrawl.dev から API キーを取得します。
- 環境変数
FIRECRAWL_API_KEY
に API キーを設定するか、FirecrawlApp
クラスにパラメータとして渡します。
Node
URLをスクレイピングする
scrapeUrl
メソッドを使用します。URLを引数に取り、スクレイプしたデータをディクショナリ(辞書)として返します。
Node
ウェブサイトのクロール
crawlUrl
メソッドを使用します。開始URLと任意のパラメータを引数に取ります。params
引数では、クロールする最大ページ数、許可ドメイン、出力フォーマットなど、クロールジョブの追加オプションを指定できます。自動/手動のページネーションや上限設定については Pagination を参照してください。
Node
クローリングを開始
startCrawl
を使うと待機せずにジョブを開始できます。ステータス確認に使えるジョブの ID
が返されます。完了まで処理をブロックするウェイターが必要な場合は crawl
を使用してください。ページングの挙動と制限については Pagination を参照してください。
Node
クロールのステータス確認
checkCrawlStatus
メソッドを使用します。ID
を引数に取り、クロールジョブの現在のステータスを返します。
Node
クロールのキャンセル
cancelCrawl
メソッドを使用します。startCrawl
のジョブIDを引数に渡すと、キャンセル結果のステータスが返されます。
Node
ウェブサイトのマッピング
mapUrl
メソッドを使用します。開始 URL を引数に取り、マッピング結果をディクショナリとして返します。
Node
WebSocket を使ったサイトのクロール
crawlUrlAndWatch
メソッドを使用します。開始 URL と任意のパラメータを引数に取ります。params
引数では、クロールする最大ページ数、許可ドメイン、出力フォーマットなど、クロールジョブの追加オプションを指定できます。
Node
ページネーション
next
URL を返します。Node SDK はデフォルトで自動ページネーションを行い、すべてのドキュメントを集約します。その場合は next
が null
になります。自動ページネーションを無効にしたり、上限を設定したりできます。
クロール
crawl
を使うことです。あるいはジョブを開始して、ページングを手動で行ってください。
シンプルなクロール(自動ページ送り、デフォルト)
- 既定のフローはウェブサイトのクロールを参照してください。
ページネーション制御付きの手動クロール(単一ページ)
- ジョブを開始し、
autoPaginate: false
を指定して1ページずつ取得します。
Node
制限付きの手動クロール(自動ページネーション + 早期停止)
- 自動ページネーションはオンのまま、
maxPages
、maxResults
、またはmaxWaitTime
で早めに停止します。
Node
バッチスクレイプ
batchScrape
を使うか、ジョブを開始して手動でページングします。
シンプルなバッチスクレイプ(自動ページネーション、デフォルト)
- 既定のフローは Batch Scrape を参照してください。
ページネーション制御による手動バッチスクレイプ(単一ページ)
- ジョブを開始し、
autoPaginate: false
を指定して1ページずつ取得します。
Node
制限付きの手動バッチスクレイプ(自動ページネーション+早期停止)
- 自動ページネーションは有効のまま、
maxPages
、maxResults
、またはmaxWaitTime
で早期停止します。
Node
エラーハンドリング
try/catch
ブロックを使ってこれらのエラーを扱う方法を示しています。