複数のURLを一括スクレイピング
仕組み
/crawl
エンドポイントの動作とほぼ同じです。バッチを開始して完了まで待つことも、開始して完了処理を自分で行うこともできます。
batchScrape
(JS)/batch_scrape
(Python):バッチジョブを開始し、完了まで待って結果を返します。startBatchScrape
(JS)/start_batch_scrape
(Python):バッチジョブを開始し、ポーリングやウェブフックに使えるジョブIDを返します。
使い方
レスポンス
batchScrape
/batch_scrape
を呼び出すと、バッチ完了時に全結果が返されます。
完了
startBatchScrape
/start_batch_scrape
を呼び出すと、getBatchScrapeStatus
/get_batch_scrape_status
、API エンドポイント/batch/scrape/{id}
、または Webhook で追跡できるジョブ ID が返されます。このエンドポイントは、進行中の確認や完了直後の確認を目的としています。バッチ ジョブは 24 時間で期限切れになるためです。
構造化抽出を伴うバッチスクレイプ
レスポンス
batchScrape
/batch_scrape
は完全な結果を返します:
完了
startBatchScrape
/start_batch_scrape
はジョブ ID を返します:
Webhook を使ったバッチスクレイプ
cURL
クイックリファレンス
batch_scrape.started
- バッチスクレイプが開始されたときbatch_scrape.page
- 各URLのスクレイプに成功したときbatch_scrape.completed
- すべてのURLの処理が完了したときbatch_scrape.failed
- バッチスクレイプでエラーが発生したとき
Webhook の詳細な設定方法、セキュリティのベストプラクティス、トラブルシューティングについては、Webhooks ドキュメントをご覧ください。