クロール

オプションに応じて複数のURLをクロールする

curl --request POST \
  --url https://api.firecrawl.dev/v1/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "allowBackwardLinks": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "crawlEntireDomain": false,
  "delay": 123,
  "excludePaths": [
    "<string>"
  ],
  "ignoreQueryParameters": false,
  "ignoreSitemap": false,
  "includePaths": [
    "<string>"
  ],
  "limit": 10000,
  "maxConcurrency": 123,
  "maxDepth": 10,
  "maxDiscoveryDepth": 123,
  "regexOnFullURL": false,
  "scrapeOptions": {
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "blockAds": true,
    "excludeTags": [
      "<string>"
    ],
    "headers": {},
    "includeTags": [
      "<string>"
    ],
    "jsonOptions": {
      "prompt": "<string>",
      "schema": {},
      "systemPrompt": "<string>"
    },
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "maxAge": 0,
    "mobile": false,
    "onlyMainContent": true,
    "parsePDF": true,
    "removeBase64Images": true,
    "skipTlsVerification": false,
    "storeInCache": true,
    "threatProtection": {
      "blacklist": [
        "<string>"
      ],
      "blockedTlds": [
        "<string>"
      ],
      "riskScoreThreshold": 75,
      "whitelist": [
        "<string>"
      ]
    },
    "timeout": 30000,
    "waitFor": 0,
    "changeTrackingOptions": {
      "modes": [],
      "prompt": "<string>",
      "schema": {},
      "tag": null
    },
    "formats": [
      "markdown"
    ]
  },
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v1/crawl"

payload = {
    "url": "<string>",
    "allowBackwardLinks": False,
    "allowExternalLinks": False,
    "allowSubdomains": False,
    "crawlEntireDomain": False,
    "delay": 123,
    "excludePaths": ["<string>"],
    "ignoreQueryParameters": False,
    "ignoreSitemap": False,
    "includePaths": ["<string>"],
    "limit": 10000,
    "maxConcurrency": 123,
    "maxDepth": 10,
    "maxDiscoveryDepth": 123,
    "regexOnFullURL": False,
    "scrapeOptions": {
        "actions": [
            {
                "type": "wait",
                "milliseconds": 2,
                "selector": "#my-element"
            }
        ],
        "blockAds": True,
        "excludeTags": ["<string>"],
        "headers": {},
        "includeTags": ["<string>"],
        "jsonOptions": {
            "prompt": "<string>",
            "schema": {},
            "systemPrompt": "<string>"
        },
        "location": {
            "country": "US",
            "languages": ["en-US"]
        },
        "maxAge": 0,
        "mobile": False,
        "onlyMainContent": True,
        "parsePDF": True,
        "removeBase64Images": True,
        "skipTlsVerification": False,
        "storeInCache": True,
        "threatProtection": {
            "blacklist": ["<string>"],
            "blockedTlds": ["<string>"],
            "riskScoreThreshold": 75,
            "whitelist": ["<string>"]
        },
        "timeout": 30000,
        "waitFor": 0,
        "changeTrackingOptions": {
            "modes": [],
            "prompt": "<string>",
            "schema": {},
            "tag": None
        },
        "formats": ["markdown"]
    },
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    allowBackwardLinks: false,
    allowExternalLinks: false,
    allowSubdomains: false,
    crawlEntireDomain: false,
    delay: 123,
    excludePaths: ['<string>'],
    ignoreQueryParameters: false,
    ignoreSitemap: false,
    includePaths: ['<string>'],
    limit: 10000,
    maxConcurrency: 123,
    maxDepth: 10,
    maxDiscoveryDepth: 123,
    regexOnFullURL: false,
    scrapeOptions: {
      actions: [{type: 'wait', milliseconds: 2, selector: '#my-element'}],
      blockAds: true,
      excludeTags: ['<string>'],
      headers: {},
      includeTags: ['<string>'],
      jsonOptions: {prompt: '<string>', schema: {}, systemPrompt: '<string>'},
      location: {country: 'US', languages: ['en-US']},
      maxAge: 0,
      mobile: false,
      onlyMainContent: true,
      parsePDF: true,
      removeBase64Images: true,
      skipTlsVerification: false,
      storeInCache: true,
      threatProtection: {
        blacklist: ['<string>'],
        blockedTlds: ['<string>'],
        riskScoreThreshold: 75,
        whitelist: ['<string>']
      },
      timeout: 30000,
      waitFor: 0,
      changeTrackingOptions: {modes: [], prompt: '<string>', schema: {}, tag: null},
      formats: ['markdown']
    },
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v1/crawl', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v1/crawl",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'allowBackwardLinks' => false,
    'allowExternalLinks' => false,
    'allowSubdomains' => false,
    'crawlEntireDomain' => false,
    'delay' => 123,
    'excludePaths' => [
        '<string>'
    ],
    'ignoreQueryParameters' => false,
    'ignoreSitemap' => false,
    'includePaths' => [
        '<string>'
    ],
    'limit' => 10000,
    'maxConcurrency' => 123,
    'maxDepth' => 10,
    'maxDiscoveryDepth' => 123,
    'regexOnFullURL' => false,
    'scrapeOptions' => [
        'actions' => [
                [
                                'type' => 'wait',
                                'milliseconds' => 2,
                                'selector' => '#my-element'
                ]
        ],
        'blockAds' => true,
        'excludeTags' => [
                '<string>'
        ],
        'headers' => [
                
        ],
        'includeTags' => [
                '<string>'
        ],
        'jsonOptions' => [
                'prompt' => '<string>',
                'schema' => [
                                
                ],
                'systemPrompt' => '<string>'
        ],
        'location' => [
                'country' => 'US',
                'languages' => [
                                'en-US'
                ]
        ],
        'maxAge' => 0,
        'mobile' => false,
        'onlyMainContent' => true,
        'parsePDF' => true,
        'removeBase64Images' => true,
        'skipTlsVerification' => false,
        'storeInCache' => true,
        'threatProtection' => [
                'blacklist' => [
                                '<string>'
                ],
                'blockedTlds' => [
                                '<string>'
                ],
                'riskScoreThreshold' => 75,
                'whitelist' => [
                                '<string>'
                ]
        ],
        'timeout' => 30000,
        'waitFor' => 0,
        'changeTrackingOptions' => [
                'modes' => [
                                
                ],
                'prompt' => '<string>',
                'schema' => [
                                
                ],
                'tag' => null
        ],
        'formats' => [
                'markdown'
        ]
    ],
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v1/crawl"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"allowBackwardLinks\": false,\n  \"allowExternalLinks\": false,\n  \"allowSubdomains\": false,\n  \"crawlEntireDomain\": false,\n  \"delay\": 123,\n  \"excludePaths\": [\n    \"<string>\"\n  ],\n  \"ignoreQueryParameters\": false,\n  \"ignoreSitemap\": false,\n  \"includePaths\": [\n    \"<string>\"\n  ],\n  \"limit\": 10000,\n  \"maxConcurrency\": 123,\n  \"maxDepth\": 10,\n  \"maxDiscoveryDepth\": 123,\n  \"regexOnFullURL\": false,\n  \"scrapeOptions\": {\n    \"actions\": [\n      {\n        \"type\": \"wait\",\n        \"milliseconds\": 2,\n        \"selector\": \"#my-element\"\n      }\n    ],\n    \"blockAds\": true,\n    \"excludeTags\": [\n      \"<string>\"\n    ],\n    \"headers\": {},\n    \"includeTags\": [\n      \"<string>\"\n    ],\n    \"jsonOptions\": {\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"systemPrompt\": \"<string>\"\n    },\n    \"location\": {\n      \"country\": \"US\",\n      \"languages\": [\n        \"en-US\"\n      ]\n    },\n    \"maxAge\": 0,\n    \"mobile\": false,\n    \"onlyMainContent\": true,\n    \"parsePDF\": true,\n    \"removeBase64Images\": true,\n    \"skipTlsVerification\": false,\n    \"storeInCache\": true,\n    \"threatProtection\": {\n      \"blacklist\": [\n        \"<string>\"\n      ],\n      \"blockedTlds\": [\n        \"<string>\"\n      ],\n      \"riskScoreThreshold\": 75,\n      \"whitelist\": [\n        \"<string>\"\n      ]\n    },\n    \"timeout\": 30000,\n    \"waitFor\": 0,\n    \"changeTrackingOptions\": {\n      \"modes\": [],\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"tag\": null\n    },\n    \"formats\": [\n      \"markdown\"\n    ]\n  },\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v1/crawl")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"allowBackwardLinks\": false,\n  \"allowExternalLinks\": false,\n  \"allowSubdomains\": false,\n  \"crawlEntireDomain\": false,\n  \"delay\": 123,\n  \"excludePaths\": [\n    \"<string>\"\n  ],\n  \"ignoreQueryParameters\": false,\n  \"ignoreSitemap\": false,\n  \"includePaths\": [\n    \"<string>\"\n  ],\n  \"limit\": 10000,\n  \"maxConcurrency\": 123,\n  \"maxDepth\": 10,\n  \"maxDiscoveryDepth\": 123,\n  \"regexOnFullURL\": false,\n  \"scrapeOptions\": {\n    \"actions\": [\n      {\n        \"type\": \"wait\",\n        \"milliseconds\": 2,\n        \"selector\": \"#my-element\"\n      }\n    ],\n    \"blockAds\": true,\n    \"excludeTags\": [\n      \"<string>\"\n    ],\n    \"headers\": {},\n    \"includeTags\": [\n      \"<string>\"\n    ],\n    \"jsonOptions\": {\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"systemPrompt\": \"<string>\"\n    },\n    \"location\": {\n      \"country\": \"US\",\n      \"languages\": [\n        \"en-US\"\n      ]\n    },\n    \"maxAge\": 0,\n    \"mobile\": false,\n    \"onlyMainContent\": true,\n    \"parsePDF\": true,\n    \"removeBase64Images\": true,\n    \"skipTlsVerification\": false,\n    \"storeInCache\": true,\n    \"threatProtection\": {\n      \"blacklist\": [\n        \"<string>\"\n      ],\n      \"blockedTlds\": [\n        \"<string>\"\n      ],\n      \"riskScoreThreshold\": 75,\n      \"whitelist\": [\n        \"<string>\"\n      ]\n    },\n    \"timeout\": 30000,\n    \"waitFor\": 0,\n    \"changeTrackingOptions\": {\n      \"modes\": [],\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"tag\": null\n    },\n    \"formats\": [\n      \"markdown\"\n    ]\n  },\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v1/crawl")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"allowBackwardLinks\": false,\n  \"allowExternalLinks\": false,\n  \"allowSubdomains\": false,\n  \"crawlEntireDomain\": false,\n  \"delay\": 123,\n  \"excludePaths\": [\n    \"<string>\"\n  ],\n  \"ignoreQueryParameters\": false,\n  \"ignoreSitemap\": false,\n  \"includePaths\": [\n    \"<string>\"\n  ],\n  \"limit\": 10000,\n  \"maxConcurrency\": 123,\n  \"maxDepth\": 10,\n  \"maxDiscoveryDepth\": 123,\n  \"regexOnFullURL\": false,\n  \"scrapeOptions\": {\n    \"actions\": [\n      {\n        \"type\": \"wait\",\n        \"milliseconds\": 2,\n        \"selector\": \"#my-element\"\n      }\n    ],\n    \"blockAds\": true,\n    \"excludeTags\": [\n      \"<string>\"\n    ],\n    \"headers\": {},\n    \"includeTags\": [\n      \"<string>\"\n    ],\n    \"jsonOptions\": {\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"systemPrompt\": \"<string>\"\n    },\n    \"location\": {\n      \"country\": \"US\",\n      \"languages\": [\n        \"en-US\"\n      ]\n    },\n    \"maxAge\": 0,\n    \"mobile\": false,\n    \"onlyMainContent\": true,\n    \"parsePDF\": true,\n    \"removeBase64Images\": true,\n    \"skipTlsVerification\": false,\n    \"storeInCache\": true,\n    \"threatProtection\": {\n      \"blacklist\": [\n        \"<string>\"\n      ],\n      \"blockedTlds\": [\n        \"<string>\"\n      ],\n      \"riskScoreThreshold\": 75,\n      \"whitelist\": [\n        \"<string>\"\n      ]\n    },\n    \"timeout\": 30000,\n    \"waitFor\": 0,\n    \"changeTrackingOptions\": {\n      \"modes\": [],\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"tag\": null\n    },\n    \"formats\": [\n      \"markdown\"\n    ]\n  },\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "id": "<string>",
  "success": true,
  "url": "<string>"
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "error": "An unexpected error occurred on the server."
}

POST

crawl

オプションに応じて複数のURLをクロールする

curl --request POST \
  --url https://api.firecrawl.dev/v1/crawl \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "allowBackwardLinks": false,
  "allowExternalLinks": false,
  "allowSubdomains": false,
  "crawlEntireDomain": false,
  "delay": 123,
  "excludePaths": [
    "<string>"
  ],
  "ignoreQueryParameters": false,
  "ignoreSitemap": false,
  "includePaths": [
    "<string>"
  ],
  "limit": 10000,
  "maxConcurrency": 123,
  "maxDepth": 10,
  "maxDiscoveryDepth": 123,
  "regexOnFullURL": false,
  "scrapeOptions": {
    "actions": [
      {
        "type": "wait",
        "milliseconds": 2,
        "selector": "#my-element"
      }
    ],
    "blockAds": true,
    "excludeTags": [
      "<string>"
    ],
    "headers": {},
    "includeTags": [
      "<string>"
    ],
    "jsonOptions": {
      "prompt": "<string>",
      "schema": {},
      "systemPrompt": "<string>"
    },
    "location": {
      "country": "US",
      "languages": [
        "en-US"
      ]
    },
    "maxAge": 0,
    "mobile": false,
    "onlyMainContent": true,
    "parsePDF": true,
    "removeBase64Images": true,
    "skipTlsVerification": false,
    "storeInCache": true,
    "threatProtection": {
      "blacklist": [
        "<string>"
      ],
      "blockedTlds": [
        "<string>"
      ],
      "riskScoreThreshold": 75,
      "whitelist": [
        "<string>"
      ]
    },
    "timeout": 30000,
    "waitFor": 0,
    "changeTrackingOptions": {
      "modes": [],
      "prompt": "<string>",
      "schema": {},
      "tag": null
    },
    "formats": [
      "markdown"
    ]
  },
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v1/crawl"

payload = {
    "url": "<string>",
    "allowBackwardLinks": False,
    "allowExternalLinks": False,
    "allowSubdomains": False,
    "crawlEntireDomain": False,
    "delay": 123,
    "excludePaths": ["<string>"],
    "ignoreQueryParameters": False,
    "ignoreSitemap": False,
    "includePaths": ["<string>"],
    "limit": 10000,
    "maxConcurrency": 123,
    "maxDepth": 10,
    "maxDiscoveryDepth": 123,
    "regexOnFullURL": False,
    "scrapeOptions": {
        "actions": [
            {
                "type": "wait",
                "milliseconds": 2,
                "selector": "#my-element"
            }
        ],
        "blockAds": True,
        "excludeTags": ["<string>"],
        "headers": {},
        "includeTags": ["<string>"],
        "jsonOptions": {
            "prompt": "<string>",
            "schema": {},
            "systemPrompt": "<string>"
        },
        "location": {
            "country": "US",
            "languages": ["en-US"]
        },
        "maxAge": 0,
        "mobile": False,
        "onlyMainContent": True,
        "parsePDF": True,
        "removeBase64Images": True,
        "skipTlsVerification": False,
        "storeInCache": True,
        "threatProtection": {
            "blacklist": ["<string>"],
            "blockedTlds": ["<string>"],
            "riskScoreThreshold": 75,
            "whitelist": ["<string>"]
        },
        "timeout": 30000,
        "waitFor": 0,
        "changeTrackingOptions": {
            "modes": [],
            "prompt": "<string>",
            "schema": {},
            "tag": None
        },
        "formats": ["markdown"]
    },
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    allowBackwardLinks: false,
    allowExternalLinks: false,
    allowSubdomains: false,
    crawlEntireDomain: false,
    delay: 123,
    excludePaths: ['<string>'],
    ignoreQueryParameters: false,
    ignoreSitemap: false,
    includePaths: ['<string>'],
    limit: 10000,
    maxConcurrency: 123,
    maxDepth: 10,
    maxDiscoveryDepth: 123,
    regexOnFullURL: false,
    scrapeOptions: {
      actions: [{type: 'wait', milliseconds: 2, selector: '#my-element'}],
      blockAds: true,
      excludeTags: ['<string>'],
      headers: {},
      includeTags: ['<string>'],
      jsonOptions: {prompt: '<string>', schema: {}, systemPrompt: '<string>'},
      location: {country: 'US', languages: ['en-US']},
      maxAge: 0,
      mobile: false,
      onlyMainContent: true,
      parsePDF: true,
      removeBase64Images: true,
      skipTlsVerification: false,
      storeInCache: true,
      threatProtection: {
        blacklist: ['<string>'],
        blockedTlds: ['<string>'],
        riskScoreThreshold: 75,
        whitelist: ['<string>']
      },
      timeout: 30000,
      waitFor: 0,
      changeTrackingOptions: {modes: [], prompt: '<string>', schema: {}, tag: null},
      formats: ['markdown']
    },
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v1/crawl', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v1/crawl",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'allowBackwardLinks' => false,
    'allowExternalLinks' => false,
    'allowSubdomains' => false,
    'crawlEntireDomain' => false,
    'delay' => 123,
    'excludePaths' => [
        '<string>'
    ],
    'ignoreQueryParameters' => false,
    'ignoreSitemap' => false,
    'includePaths' => [
        '<string>'
    ],
    'limit' => 10000,
    'maxConcurrency' => 123,
    'maxDepth' => 10,
    'maxDiscoveryDepth' => 123,
    'regexOnFullURL' => false,
    'scrapeOptions' => [
        'actions' => [
                [
                                'type' => 'wait',
                                'milliseconds' => 2,
                                'selector' => '#my-element'
                ]
        ],
        'blockAds' => true,
        'excludeTags' => [
                '<string>'
        ],
        'headers' => [
                
        ],
        'includeTags' => [
                '<string>'
        ],
        'jsonOptions' => [
                'prompt' => '<string>',
                'schema' => [
                                
                ],
                'systemPrompt' => '<string>'
        ],
        'location' => [
                'country' => 'US',
                'languages' => [
                                'en-US'
                ]
        ],
        'maxAge' => 0,
        'mobile' => false,
        'onlyMainContent' => true,
        'parsePDF' => true,
        'removeBase64Images' => true,
        'skipTlsVerification' => false,
        'storeInCache' => true,
        'threatProtection' => [
                'blacklist' => [
                                '<string>'
                ],
                'blockedTlds' => [
                                '<string>'
                ],
                'riskScoreThreshold' => 75,
                'whitelist' => [
                                '<string>'
                ]
        ],
        'timeout' => 30000,
        'waitFor' => 0,
        'changeTrackingOptions' => [
                'modes' => [
                                
                ],
                'prompt' => '<string>',
                'schema' => [
                                
                ],
                'tag' => null
        ],
        'formats' => [
                'markdown'
        ]
    ],
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v1/crawl"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"allowBackwardLinks\": false,\n  \"allowExternalLinks\": false,\n  \"allowSubdomains\": false,\n  \"crawlEntireDomain\": false,\n  \"delay\": 123,\n  \"excludePaths\": [\n    \"<string>\"\n  ],\n  \"ignoreQueryParameters\": false,\n  \"ignoreSitemap\": false,\n  \"includePaths\": [\n    \"<string>\"\n  ],\n  \"limit\": 10000,\n  \"maxConcurrency\": 123,\n  \"maxDepth\": 10,\n  \"maxDiscoveryDepth\": 123,\n  \"regexOnFullURL\": false,\n  \"scrapeOptions\": {\n    \"actions\": [\n      {\n        \"type\": \"wait\",\n        \"milliseconds\": 2,\n        \"selector\": \"#my-element\"\n      }\n    ],\n    \"blockAds\": true,\n    \"excludeTags\": [\n      \"<string>\"\n    ],\n    \"headers\": {},\n    \"includeTags\": [\n      \"<string>\"\n    ],\n    \"jsonOptions\": {\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"systemPrompt\": \"<string>\"\n    },\n    \"location\": {\n      \"country\": \"US\",\n      \"languages\": [\n        \"en-US\"\n      ]\n    },\n    \"maxAge\": 0,\n    \"mobile\": false,\n    \"onlyMainContent\": true,\n    \"parsePDF\": true,\n    \"removeBase64Images\": true,\n    \"skipTlsVerification\": false,\n    \"storeInCache\": true,\n    \"threatProtection\": {\n      \"blacklist\": [\n        \"<string>\"\n      ],\n      \"blockedTlds\": [\n        \"<string>\"\n      ],\n      \"riskScoreThreshold\": 75,\n      \"whitelist\": [\n        \"<string>\"\n      ]\n    },\n    \"timeout\": 30000,\n    \"waitFor\": 0,\n    \"changeTrackingOptions\": {\n      \"modes\": [],\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"tag\": null\n    },\n    \"formats\": [\n      \"markdown\"\n    ]\n  },\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v1/crawl")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"allowBackwardLinks\": false,\n  \"allowExternalLinks\": false,\n  \"allowSubdomains\": false,\n  \"crawlEntireDomain\": false,\n  \"delay\": 123,\n  \"excludePaths\": [\n    \"<string>\"\n  ],\n  \"ignoreQueryParameters\": false,\n  \"ignoreSitemap\": false,\n  \"includePaths\": [\n    \"<string>\"\n  ],\n  \"limit\": 10000,\n  \"maxConcurrency\": 123,\n  \"maxDepth\": 10,\n  \"maxDiscoveryDepth\": 123,\n  \"regexOnFullURL\": false,\n  \"scrapeOptions\": {\n    \"actions\": [\n      {\n        \"type\": \"wait\",\n        \"milliseconds\": 2,\n        \"selector\": \"#my-element\"\n      }\n    ],\n    \"blockAds\": true,\n    \"excludeTags\": [\n      \"<string>\"\n    ],\n    \"headers\": {},\n    \"includeTags\": [\n      \"<string>\"\n    ],\n    \"jsonOptions\": {\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"systemPrompt\": \"<string>\"\n    },\n    \"location\": {\n      \"country\": \"US\",\n      \"languages\": [\n        \"en-US\"\n      ]\n    },\n    \"maxAge\": 0,\n    \"mobile\": false,\n    \"onlyMainContent\": true,\n    \"parsePDF\": true,\n    \"removeBase64Images\": true,\n    \"skipTlsVerification\": false,\n    \"storeInCache\": true,\n    \"threatProtection\": {\n      \"blacklist\": [\n        \"<string>\"\n      ],\n      \"blockedTlds\": [\n        \"<string>\"\n      ],\n      \"riskScoreThreshold\": 75,\n      \"whitelist\": [\n        \"<string>\"\n      ]\n    },\n    \"timeout\": 30000,\n    \"waitFor\": 0,\n    \"changeTrackingOptions\": {\n      \"modes\": [],\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"tag\": null\n    },\n    \"formats\": [\n      \"markdown\"\n    ]\n  },\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v1/crawl")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"allowBackwardLinks\": false,\n  \"allowExternalLinks\": false,\n  \"allowSubdomains\": false,\n  \"crawlEntireDomain\": false,\n  \"delay\": 123,\n  \"excludePaths\": [\n    \"<string>\"\n  ],\n  \"ignoreQueryParameters\": false,\n  \"ignoreSitemap\": false,\n  \"includePaths\": [\n    \"<string>\"\n  ],\n  \"limit\": 10000,\n  \"maxConcurrency\": 123,\n  \"maxDepth\": 10,\n  \"maxDiscoveryDepth\": 123,\n  \"regexOnFullURL\": false,\n  \"scrapeOptions\": {\n    \"actions\": [\n      {\n        \"type\": \"wait\",\n        \"milliseconds\": 2,\n        \"selector\": \"#my-element\"\n      }\n    ],\n    \"blockAds\": true,\n    \"excludeTags\": [\n      \"<string>\"\n    ],\n    \"headers\": {},\n    \"includeTags\": [\n      \"<string>\"\n    ],\n    \"jsonOptions\": {\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"systemPrompt\": \"<string>\"\n    },\n    \"location\": {\n      \"country\": \"US\",\n      \"languages\": [\n        \"en-US\"\n      ]\n    },\n    \"maxAge\": 0,\n    \"mobile\": false,\n    \"onlyMainContent\": true,\n    \"parsePDF\": true,\n    \"removeBase64Images\": true,\n    \"skipTlsVerification\": false,\n    \"storeInCache\": true,\n    \"threatProtection\": {\n      \"blacklist\": [\n        \"<string>\"\n      ],\n      \"blockedTlds\": [\n        \"<string>\"\n      ],\n      \"riskScoreThreshold\": 75,\n      \"whitelist\": [\n        \"<string>\"\n      ]\n    },\n    \"timeout\": 30000,\n    \"waitFor\": 0,\n    \"changeTrackingOptions\": {\n      \"modes\": [],\n      \"prompt\": \"<string>\",\n      \"schema\": {},\n      \"tag\": null\n    },\n    \"formats\": [\n      \"markdown\"\n    ]\n  },\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "id": "<string>",
  "success": true,
  "url": "<string>"
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "error": "An unexpected error occurred on the server."
}

注記: 機能とパフォーマンスが向上した本 API の新しい v2 バージョンが利用可能です。

承認

Authorization

string

header

必須

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

ボディ

application/json

url

string<uri>

必須

クロールを開始するためのベースURL

allowBackwardLinks

boolean

デフォルト:false

非推奨

⚠️ 非推奨: 代わりに 'crawlEntireDomain' を使用してください。クローラーが子パスだけでなく、同一階層や親のURLへの内部リンクもたどれるようにします。

allowExternalLinks

boolean

デフォルト:false

クローラーが外部サイトへのリンクをたどることを許可します。

allowSubdomains

boolean

デフォルト:false

クロール時に、クローラーがメインドメイン配下のサブドメインへのリンクをたどれるようにします。

crawlEntireDomain

boolean

デフォルト:false

クローラーがたどるリンクの範囲を、子パスだけでなく同一階層や親階層の内部リンクにも広げます。

false: より深い（子）URL だけをクロールします。 → 例: /features/feature-1 → /features/feature-1/tips ✅ → /pricing や / には移動しない ❌

true: 同一階層や親階層のパスを含む、あらゆる内部リンクをクロールします。 → 例: /features/feature-1 → /pricing、/ など ✅

ネストされたパスだけでなく、サイト内部全体を広くカバーしたい場合は true に設定します。

delay

number

スクレイピング実行間の待機時間（秒）。ウェブサイトのレート制限を遵守するのに役立ちます。

excludePaths

string[]

クロール対象からURLを除外するための URL パス名の正規表現パターンです。たとえば、ベース URL が firecrawl.dev の場合に "excludePaths": ["blog/.*"] を設定すると、https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap のように、そのパターンに一致する結果はすべて除外されます。

ignoreQueryParameters

boolean

デフォルト:false

同じパスを、クエリパラメータを変えて（または付けずに）再度スクレイピングしないでください

ignoreSitemap

boolean

デフォルト:false

クロール時にサイトマップを無視する

includePaths

string[]

クロールに含めるURLを指定するための、URLパス名に対する正規表現パターンです。指定したパターンに一致するパスのみがレスポンスに含まれます。たとえば、ベースURLが firecrawl.dev の場合に "includePaths": ["blog/.*"] を設定すると、そのパターンに一致する結果のみが含まれます（例: https://www.firecrawl.dev/blog/firecrawl-launch-week-1-recap）。

limit

integer

デフォルト:10000

クロールするページの最大数です。デフォルトの上限は 10,000 です。

maxConcurrency

integer

同時に実行するスクレイプの最大数。このパラメータで、このクロールに対する同時実行数の上限を設定できます。指定しない場合は、チームの同時実行数上限が適用されます。

maxDepth

integer

デフォルト:10

入力されたURLのベースからクロールできる最大の絶対深度です。基本的には、スクレイピング対象となるURLのパス名に含めることができるスラッシュの最大数を指します。

maxDiscoveryDepth

integer

発見順序に基づいてクロールする最大の深さです。ルートサイトおよびサイトマップに含まれるページの発見深度は 0 です。例えば、これを 1 に設定し、かつ ignoreSitemap を有効にした場合、入力した URL と、そのページ上からリンクされているすべての URL のみをクロールします。

regexOnFullURL

boolean

デフォルト:false

true の場合、includePaths および excludePaths の正規表現パターンは、URL のパス名だけでなく、クエリパラメータを含む URL 全体に対して照合されます。クエリ文字列に基づいて URL をフィルタリングしたい場合に便利です。

scrapeOptions

object

Show child attributes

webhook

object

Webhook仕様オブジェクト。

Show child attributes

zeroDataRetention

boolean

デフォルト:false

true の場合、このクロールではデータを一切保持しないゼロデータ保持モードが有効になります。この機能を有効にするには、help@firecrawl.dev までお問い合わせください。

レスポンス

成功時のレスポンス

string

success

boolean

url

string<uri>

バッチスクレイプエラーを取得

クロールステータスを取得

API の使い方

スクレイピングエンドポイント

クローリングエンドポイント

マッピングエンドポイント

検索エンドポイント

抽出エンドポイント

アカウントエンドポイント

承認

ボディ

レスポンス