
Firecrawlへようこそ
どう使えばいいですか?
- API: ドキュメント
- SDKs: Python, Node
- LLMフレームワーク: Langchain (Python), Langchain (JS), LlamaIndex, Crew.ai, Composio, PraisonAI, Superinterface, Vectorize
- ローコードフレームワーク: Dify, Langflow, Flowise AI, Cargo, Pipedream
- コミュニティSDK: Go, Rust (v1)
- その他: Zapier, Pabbly Connect
- SDKやインテグレーションが必要ですか?Issueを作成してお知らせください。
API Key
機能
- Scrape: URLをスクレイピングし、LLM向けのフォーマット(Markdown、要約、JSONモードによる構造化データ、スクリーンショット、HTML)でコンテンツを取得
- Crawl: ウェブページ内のすべてのURLをスクレイピングし、LLM向けのフォーマットでコンテンツを返す
- Map: ウェブサイトを入力し、サイト内のすべてのURLを高速で取得
- Search: ウェブを検索し、結果からコンテンツ全文を取得
- Extract: 単一ページ、複数ページ、またはサイト全体からAIで構造化データを抽出
強力な機能
- LLM対応フォーマット: Markdown、要約、構造化データ、スクリーンショット、HTML、リンク、メタデータ
- 難所もお任せ: プロキシ、ボット対策、動的コンテンツ(JSレンダリング)、出力パース、オーケストレーション
- 超高速: 数秒で結果を返却—スピードと高スループットのユースケース向けに設計。
- カスタマイズ性: タグの除外、カスタムヘッダーで認証壁の背後をクロール、最大クロール深度など
- メディア解析: PDF、DOCX、画像
- 信頼性重視: 必要なデータを、どれだけ難しくても確実に取得
- アクション: 抽出前に click、scroll、input、wait などを実行
Firecrawl のインストール
スクレイピング
scrape
メソッドを使用します。URLを引数に取り、スクレイプしたデータをディクショナリとして返します。
レスポンス
クローリング
crawl
メソッドを呼ぶだけでクローリングジョブを送信し、完了まで待機して、サイト全体の結果をまとめて返します。
使い方
start crawl
関数を使う場合は、クロールのステータス確認に使用できる ID
が返されます。
クロールのステータスを取得
レスポンス
next
URLパラメータが付与されます。次の10MBのデータを取得するには、このURLにリクエストしてください。next
パラメータがない場合は、クロールデータの末尾であることを示します。
JSONモード
JSON
Search
- 出力フォーマット(markdown、HTML、links、screenshots)を選択
- 取得元のソース(web、news、images)を選択
- カスタマイズ可能なパラメータ(location など)でウェブを検索
レスポンス
JSON
スキーマなしで抽出
prompt
を渡すだけで、スキーマを用いずに抽出できます。LLMがデータの構造を決定します。
JSON
アクションでページを操作する
wait
アクションを使用することが重要です。
例
出力
オープンソース vs クラウド
