複数のURLを一括スクレイピング
仕組み
/crawl
エンドポイントの動作とほぼ同じです。バッチを開始して完了まで待つことも、開始して完了処理を自分で行うこともできます。
batchScrape
(JS)/batch_scrape
(Python):バッチジョブを開始し、完了まで待って結果を返します。startBatchScrape
(JS)/start_batch_scrape
(Python):バッチジョブを開始し、ポーリングやウェブフックに使えるジョブIDを返します。
使い方
レスポンス
batchScrape
/batch_scrape
を呼び出すと、バッチ完了時に完全な結果が返されます。
完了
startBatchScrape
/start_batch_scrape
を呼び出すと、getBatchScrapeStatus
/get_batch_scrape_status
、API エンドポイント /batch/scrape/{id}
、または Webhook を使って追跡できるジョブ ID が返されます。このエンドポイントは進行中の確認や完了直後の確認を想定しています。バッチジョブは 24 時間で有効期限が切れるため。
構造化抽出を伴うバッチスクレイプ
レスポンス
batchScrape
/batch_scrape
は完全な結果を返します:
完了
startBatchScrape
/start_batch_scrape
はジョブ ID を返します:
Webhooks を使ったバッチスクレイプ
cURL
クイックリファレンス
batch_scrape.started
- バッチスクレイプが開始されたときbatch_scrape.page
- 各URLのスクレイプに成功したときbatch_scrape.completed
- すべてのURLの処理が完了したときbatch_scrape.failed
- バッチスクレイプでエラーが発生した場合
Webhook の詳細な構成方法、セキュリティのベストプラクティス、トラブルシューティングについては、Webhooks のドキュメントをご覧ください。