インストール
Python
使い方
- firecrawl.dev で API キーを取得します
- API キーを環境変数
FIRECRAWL_API_KEY
に設定するか、Firecrawl
クラスにパラメータとして渡します。
Python
URLのスクレイピング
scrape
メソッドを使用します。URLを引数に取り、取得したドキュメントを返します。
Python
ウェブサイトをクロールする
crawl
メソッドを使用します。開始URLと任意のオプションを引数に取ります。オプションでは、クロールするページ数の上限、許可するドメイン、出力フォーマットなど、クロールジョブの追加設定を指定できます。自動/手動のページネーションや制限については Pagination を参照してください。
Python
クロールを開始
ノンブロッキングがお好みですか?下のAsync Classセクションをご覧ください。
start_crawl
を使うと待たずにジョブを開始できます。ステータス確認に使えるジョブの ID
を返します。完了までブロックして待機したい場合は crawl
を使用してください。ページングの動作と制限は Pagination を参照してください。
Python
クロールのステータス確認
get_crawl_status
メソッドを使用します。ジョブIDを引数に取り、クロールジョブの現在のステータスを返します。
Python
クロールのキャンセル
cancel_crawl
メソッドを使用します。start_crawl
のジョブIDを引数に取り、キャンセル結果のステータスを返します。
Python
ウェブサイトをマッピングする
map
を使って、ウェブサイトから URL の一覧を生成します。オプションで、サブドメインの除外やサイトマップの利用など、マッピングの挙動をカスタマイズできます。
Python
WebSockets を使ったウェブサイトのクロール
start_crawl
でジョブを開始し、watcher
ヘルパーで購読します。ジョブ ID を指定して watcher を作成し、start()
を呼び出す前にハンドラー(例: page、completed、failed)を登録します。
Python
ページネーション
next
URL を返します。Python SDK はデフォルトで自動ページネーションを行い、すべてのドキュメントを集約します。この場合、next
は None
になります。自動ページネーションを無効化したり、上限を設定することも可能です。
クロール
crawl
を使うことです。もしくはジョブを開始して手動でページ処理を行ってください。
シンプルなクロール(自動ページネーション、デフォルト)
- 既定のフローについてはウェブサイトをクロールするを参照してください。
ページネーションを手動制御するクロール(単一ページ)
- ジョブを開始し、
auto_paginate=False
を指定して1ページずつ取得します。
Python
制限付きの手動クロール(自動ページネーション + 早期停止)
- 自動ページネーションは有効のまま、
max_pages
、max_results
、またはmax_wait_time
で早期停止します。
Python
バッチスクレイプ
batch_scrape
を使うか、ジョブを開始して手動でページングします。
シンプルなバッチスクレイプ(自動ページネーション、デフォルト)
- 既定のフローは Batch Scrape を参照してください。
ページネーション制御付きの手動バッチスクレイプ(単一ページ)
- ジョブを開始し、
auto_paginate=False
を指定して1ページずつ取得します。
Python
制限付きの手動バッチスクレイプ(自動ページネーション + 早期停止)
- 自動ページネーションは有効にしたまま、
max_pages
、max_results
、またはmax_wait_time
で早期に停止します。
Python
エラーハンドリング
非同期クラス
AsyncFirecrawl
クラスを使用します。メソッドは Firecrawl
と同等ですが、メインスレッドをブロックしません。
Python