
Firecrawlへようこそ
使い方
- API: Documentation
- SDKs: Python, Node
- LLMフレームワーク: LangChain (Python), LangChain (JS), LlamaIndex, Crew.ai, Composio, PraisonAI, Superinterface, Vectorize
- ローコードフレームワーク: Dify, Langflow, Flowise AI, Cargo, Pipedream
- コミュニティSDK: Go, Rust (v1)
- その他: Zapier, Pabbly Connect
- セルフホスト: セルフホストする場合はこちらのガイドをご参照ください。
API Key
機能
- Scrape: URLをスクレイピングし、LLM向けのフォーマット(Markdown、要約、JSONモードによる構造化データ、スクリーンショット、HTML)でコンテンツを取得
- Crawl: ウェブページ内のすべてのURLをスクレイピングし、LLM向けのフォーマットでコンテンツを返す
- Map: ウェブサイトを入力し、サイト内のすべてのURLを高速で取得
- Search: ウェブを検索し、結果からコンテンツ全文を取得
- Extract: 単一ページ、複数ページ、またはサイト全体からAIで構造化データを抽出
強力な機能
- LLM対応のフォーマット: Markdown、要約、構造化データ、スクリーンショット、HTML、リンク、メタデータ、画像
- 難所への対応: プロキシ、ボット対策、動的コンテンツ(JSレンダリング)、出力パース、オーケストレーション
- 超高速: 数秒で結果を返却—スピードと高スループットのユースケースに最適。
- カスタマイズ性: タグの除外、カスタムヘッダーを用いた認証越えのクロール、最大クロール深度の指定など
- メディア解析: PDF、DOCX、画像
- 信頼性重視: どれほど難しくても、必要なデータを取得できる設計
- アクション: データ抽出前に click、scroll、input、wait などを実行
Firecrawl のインストール
スクレイピング
scrape メソッドを使用します。URLを引数に取り、スクレイプしたデータをディクショナリとして返します。
レスポンス
SDKはデータオブジェクトを直接返します。cURLは以下のとおり、ペイロードをそのまま返します。クローリング
crawl メソッドを呼ぶだけでクローリングジョブを送信し、完了まで待機して、サイト全体の結果をまとめて返します。
使い方
start crawl 関数を使う場合は、クロールのステータス確認に使用できる ID が返されます。
クロールのステータスを取得
レスポンス
next URLパラメータが付与されます。次の10MBのデータを取得するには、このURLにリクエストしてください。next パラメータがない場合は、クロールデータの末尾であることを示します。
JSONモード
JSON
Search
- 出力フォーマット(markdown、HTML、links、screenshots)を選択
- 取得元のソース(web、news、images)を選択
- カスタマイズ可能なパラメータ(location など)でウェブを検索
レスポンス
SDK はデータオブジェクトを直接返します。cURL は完全なペイロードを返します。JSON
スキーマなしで抽出
promptを渡すだけで、スキーマを用いずに抽出できます。LLMがデータの構造を決定します。
JSON
アクションでページを操作する
wait アクションを使用することが重要です。
例
出力
オープンソース vs クラウド

