Scrape

Extraer datos de una sola URL y, opcionalmente, extraer información con un LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "milliseconds": 2,
      "type": "wait"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "formats": [
    "markdown"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "lockdown": false,
  "maxAge": 172800000,
  "minAge": 123,
  "mobile": false,
  "onlyCleanContent": false,
  "onlyMainContent": true,
  "parsers": [
    "pdf"
  ],
  "proxy": "auto",
  "redactPII": false,
  "removeBase64Images": true,
  "skipTlsVerification": true,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 60000,
  "waitFor": 0,
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v2/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "milliseconds": 2,
            "type": "wait"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "formats": ["markdown"],
    "headers": {},
    "includeTags": ["<string>"],
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "lockdown": False,
    "maxAge": 172800000,
    "minAge": 123,
    "mobile": False,
    "onlyCleanContent": False,
    "onlyMainContent": True,
    "parsers": ["pdf"],
    "proxy": "auto",
    "redactPII": False,
    "removeBase64Images": True,
    "skipTlsVerification": True,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 60000,
    "waitFor": 0,
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{milliseconds: 2, type: 'wait'}],
    blockAds: true,
    excludeTags: ['<string>'],
    formats: ['markdown'],
    headers: {},
    includeTags: ['<string>'],
    location: {country: 'US', languages: ['en-US']},
    lockdown: false,
    maxAge: 172800000,
    minAge: 123,
    mobile: false,
    onlyCleanContent: false,
    onlyMainContent: true,
    parsers: ['pdf'],
    proxy: 'auto',
    redactPII: false,
    removeBase64Images: true,
    skipTlsVerification: true,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 60000,
    waitFor: 0,
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v2/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v2/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'milliseconds' => 2,
                'type' => 'wait'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'formats' => [
        'markdown'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'lockdown' => false,
    'maxAge' => 172800000,
    'minAge' => 123,
    'mobile' => false,
    'onlyCleanContent' => false,
    'onlyMainContent' => true,
    'parsers' => [
        'pdf'
    ],
    'proxy' => 'auto',
    'redactPII' => false,
    'removeBase64Images' => true,
    'skipTlsVerification' => true,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 60000,
    'waitFor' => 0,
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v2/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v2/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v2/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "answer": "<string>",
    "audio": "<string>",
    "branding": {
      "animations": {},
      "colors": {
        "accent": "<string>",
        "background": "<string>",
        "error": "<string>",
        "link": "<string>",
        "primary": "<string>",
        "secondary": "<string>",
        "success": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "warning": "<string>"
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "input": {}
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "icons": {},
      "images": {
        "favicon": "<string>",
        "logo": "<string>",
        "ogImage": "<string>"
      },
      "layout": {},
      "logo": "<string>",
      "personality": {},
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "margins": {},
        "padding": {}
      },
      "typography": {
        "fontFamilies": {
          "code": "<string>",
          "heading": "<string>",
          "primary": "<string>"
        },
        "fontSizes": {
          "body": "<string>",
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>"
        },
        "fontWeights": {
          "bold": 123,
          "light": 123,
          "medium": 123,
          "regular": 123
        },
        "lineHeights": {
          "body": "<string>",
          "heading": "<string>"
        }
      }
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "highlights": "<string>",
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "markdown": "<string>",
    "menu": {
      "isMenu": true,
      "sections": [
        {
          "items": [
            {
              "name": "<string>",
              "availability": {
                "inStock": true,
                "text": "<string>"
              },
              "calories": 123,
              "description": "<string>",
              "dietary": [
                "<string>"
              ],
              "id": "<string>",
              "identifiers": {
                "merchantItemId": "<string>"
              },
              "images": [
                {
                  "url": "<string>",
                  "alt": "<string>"
                }
              ],
              "optionGroups": [
                {}
              ],
              "price": {
                "amount": 123,
                "currency": "<string>",
                "formatted": "<string>"
              },
              "sourceUrl": "<string>",
              "url": "<string>"
            }
          ],
          "name": "<string>",
          "description": "<string>",
          "id": "<string>"
        }
      ],
      "confidence": 123,
      "currency": "<string>",
      "merchant": {
        "name": "<string>",
        "type": "<string>"
      },
      "sourceUrl": "<string>"
    },
    "metadata": {
      "<any other metadata> ": "<string>",
      "concurrencyLimited": true,
      "concurrencyQueueDurationMs": 123,
      "contentType": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123,
      "url": "<string>"
    },
    "product": {
      "title": "<string>",
      "url": "<string>",
      "variants": [
        {
          "availability": {
            "inStock": true,
            "text": "<string>"
          },
          "id": "<string>",
          "images": [
            {
              "url": "<string>",
              "alt": "<string>"
            }
          ],
          "price": {
            "amount": 123,
            "currency": "<string>",
            "formatted": "<string>"
          },
          "sale": {
            "originalPrice": {
              "amount": 123,
              "currency": "<string>",
              "formatted": "<string>"
            }
          },
          "sku": "<string>",
          "title": "<string>",
          "values": {}
        }
      ],
      "brand": "<string>",
      "category": "<string>",
      "description": "<string>"
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "summary": "<string>",
    "video": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "code": "UNKNOWN_ERROR",
  "error": "An unexpected error occurred on the server.",
  "success": false
}

POST

scrape

Extraer datos de una sola URL y, opcionalmente, extraer información con un LLM

curl --request POST \
  --url https://api.firecrawl.dev/v2/scrape \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url": "<string>",
  "actions": [
    {
      "milliseconds": 2,
      "type": "wait"
    }
  ],
  "blockAds": true,
  "excludeTags": [
    "<string>"
  ],
  "formats": [
    "markdown"
  ],
  "headers": {},
  "includeTags": [
    "<string>"
  ],
  "location": {
    "country": "US",
    "languages": [
      "en-US"
    ]
  },
  "lockdown": false,
  "maxAge": 172800000,
  "minAge": 123,
  "mobile": false,
  "onlyCleanContent": false,
  "onlyMainContent": true,
  "parsers": [
    "pdf"
  ],
  "proxy": "auto",
  "redactPII": false,
  "removeBase64Images": true,
  "skipTlsVerification": true,
  "storeInCache": true,
  "threatProtection": {
    "blacklist": [
      "<string>"
    ],
    "blockedTlds": [
      "<string>"
    ],
    "riskScoreThreshold": 75,
    "whitelist": [
      "<string>"
    ]
  },
  "timeout": 60000,
  "waitFor": 0,
  "zeroDataRetention": false
}
'

import requests

url = "https://api.firecrawl.dev/v2/scrape"

payload = {
    "url": "<string>",
    "actions": [
        {
            "milliseconds": 2,
            "type": "wait"
        }
    ],
    "blockAds": True,
    "excludeTags": ["<string>"],
    "formats": ["markdown"],
    "headers": {},
    "includeTags": ["<string>"],
    "location": {
        "country": "US",
        "languages": ["en-US"]
    },
    "lockdown": False,
    "maxAge": 172800000,
    "minAge": 123,
    "mobile": False,
    "onlyCleanContent": False,
    "onlyMainContent": True,
    "parsers": ["pdf"],
    "proxy": "auto",
    "redactPII": False,
    "removeBase64Images": True,
    "skipTlsVerification": True,
    "storeInCache": True,
    "threatProtection": {
        "blacklist": ["<string>"],
        "blockedTlds": ["<string>"],
        "riskScoreThreshold": 75,
        "whitelist": ["<string>"]
    },
    "timeout": 60000,
    "waitFor": 0,
    "zeroDataRetention": False
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({
    url: '<string>',
    actions: [{milliseconds: 2, type: 'wait'}],
    blockAds: true,
    excludeTags: ['<string>'],
    formats: ['markdown'],
    headers: {},
    includeTags: ['<string>'],
    location: {country: 'US', languages: ['en-US']},
    lockdown: false,
    maxAge: 172800000,
    minAge: 123,
    mobile: false,
    onlyCleanContent: false,
    onlyMainContent: true,
    parsers: ['pdf'],
    proxy: 'auto',
    redactPII: false,
    removeBase64Images: true,
    skipTlsVerification: true,
    storeInCache: true,
    threatProtection: {
      blacklist: ['<string>'],
      blockedTlds: ['<string>'],
      riskScoreThreshold: 75,
      whitelist: ['<string>']
    },
    timeout: 60000,
    waitFor: 0,
    zeroDataRetention: false
  })
};

fetch('https://api.firecrawl.dev/v2/scrape', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.firecrawl.dev/v2/scrape",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'url' => '<string>',
    'actions' => [
        [
                'milliseconds' => 2,
                'type' => 'wait'
        ]
    ],
    'blockAds' => true,
    'excludeTags' => [
        '<string>'
    ],
    'formats' => [
        'markdown'
    ],
    'headers' => [
        
    ],
    'includeTags' => [
        '<string>'
    ],
    'location' => [
        'country' => 'US',
        'languages' => [
                'en-US'
        ]
    ],
    'lockdown' => false,
    'maxAge' => 172800000,
    'minAge' => 123,
    'mobile' => false,
    'onlyCleanContent' => false,
    'onlyMainContent' => true,
    'parsers' => [
        'pdf'
    ],
    'proxy' => 'auto',
    'redactPII' => false,
    'removeBase64Images' => true,
    'skipTlsVerification' => true,
    'storeInCache' => true,
    'threatProtection' => [
        'blacklist' => [
                '<string>'
        ],
        'blockedTlds' => [
                '<string>'
        ],
        'riskScoreThreshold' => 75,
        'whitelist' => [
                '<string>'
        ]
    ],
    'timeout' => 60000,
    'waitFor' => 0,
    'zeroDataRetention' => false
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: application/json"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.firecrawl.dev/v2/scrape"

	payload := strings.NewReader("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.firecrawl.dev/v2/scrape")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.firecrawl.dev/v2/scrape")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'application/json'
request.body = "{\n  \"url\": \"<string>\",\n  \"actions\": [\n    {\n      \"milliseconds\": 2,\n      \"type\": \"wait\"\n    }\n  ],\n  \"blockAds\": true,\n  \"excludeTags\": [\n    \"<string>\"\n  ],\n  \"formats\": [\n    \"markdown\"\n  ],\n  \"headers\": {},\n  \"includeTags\": [\n    \"<string>\"\n  ],\n  \"location\": {\n    \"country\": \"US\",\n    \"languages\": [\n      \"en-US\"\n    ]\n  },\n  \"lockdown\": false,\n  \"maxAge\": 172800000,\n  \"minAge\": 123,\n  \"mobile\": false,\n  \"onlyCleanContent\": false,\n  \"onlyMainContent\": true,\n  \"parsers\": [\n    \"pdf\"\n  ],\n  \"proxy\": \"auto\",\n  \"redactPII\": false,\n  \"removeBase64Images\": true,\n  \"skipTlsVerification\": true,\n  \"storeInCache\": true,\n  \"threatProtection\": {\n    \"blacklist\": [\n      \"<string>\"\n    ],\n    \"blockedTlds\": [\n      \"<string>\"\n    ],\n    \"riskScoreThreshold\": 75,\n    \"whitelist\": [\n      \"<string>\"\n    ]\n  },\n  \"timeout\": 60000,\n  \"waitFor\": 0,\n  \"zeroDataRetention\": false\n}"

response = http.request(request)
puts response.read_body

{
  "data": {
    "actions": {
      "javascriptReturns": [
        {
          "type": "<string>",
          "value": "<unknown>"
        }
      ],
      "pdfs": [
        "<string>"
      ],
      "scrapes": [
        {
          "html": "<string>",
          "url": "<string>"
        }
      ],
      "screenshots": [
        "<string>"
      ]
    },
    "answer": "<string>",
    "audio": "<string>",
    "branding": {
      "animations": {},
      "colors": {
        "accent": "<string>",
        "background": "<string>",
        "error": "<string>",
        "link": "<string>",
        "primary": "<string>",
        "secondary": "<string>",
        "success": "<string>",
        "textPrimary": "<string>",
        "textSecondary": "<string>",
        "warning": "<string>"
      },
      "components": {
        "buttonPrimary": {
          "background": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "buttonSecondary": {
          "background": "<string>",
          "borderColor": "<string>",
          "borderRadius": "<string>",
          "textColor": "<string>"
        },
        "input": {}
      },
      "fonts": [
        {
          "family": "<string>"
        }
      ],
      "icons": {},
      "images": {
        "favicon": "<string>",
        "logo": "<string>",
        "ogImage": "<string>"
      },
      "layout": {},
      "logo": "<string>",
      "personality": {},
      "spacing": {
        "baseUnit": 123,
        "borderRadius": "<string>",
        "margins": {},
        "padding": {}
      },
      "typography": {
        "fontFamilies": {
          "code": "<string>",
          "heading": "<string>",
          "primary": "<string>"
        },
        "fontSizes": {
          "body": "<string>",
          "h1": "<string>",
          "h2": "<string>",
          "h3": "<string>"
        },
        "fontWeights": {
          "bold": 123,
          "light": 123,
          "medium": 123,
          "regular": 123
        },
        "lineHeights": {
          "body": "<string>",
          "heading": "<string>"
        }
      }
    },
    "changeTracking": {
      "diff": "<string>",
      "json": {},
      "previousScrapeAt": "2023-11-07T05:31:56Z"
    },
    "highlights": "<string>",
    "html": "<string>",
    "links": [
      "<string>"
    ],
    "markdown": "<string>",
    "menu": {
      "isMenu": true,
      "sections": [
        {
          "items": [
            {
              "name": "<string>",
              "availability": {
                "inStock": true,
                "text": "<string>"
              },
              "calories": 123,
              "description": "<string>",
              "dietary": [
                "<string>"
              ],
              "id": "<string>",
              "identifiers": {
                "merchantItemId": "<string>"
              },
              "images": [
                {
                  "url": "<string>",
                  "alt": "<string>"
                }
              ],
              "optionGroups": [
                {}
              ],
              "price": {
                "amount": 123,
                "currency": "<string>",
                "formatted": "<string>"
              },
              "sourceUrl": "<string>",
              "url": "<string>"
            }
          ],
          "name": "<string>",
          "description": "<string>",
          "id": "<string>"
        }
      ],
      "confidence": 123,
      "currency": "<string>",
      "merchant": {
        "name": "<string>",
        "type": "<string>"
      },
      "sourceUrl": "<string>"
    },
    "metadata": {
      "<any other metadata> ": "<string>",
      "concurrencyLimited": true,
      "concurrencyQueueDurationMs": 123,
      "contentType": "<string>",
      "description": "<string>",
      "error": "<string>",
      "keywords": "<string>",
      "language": "<string>",
      "numPages": 123,
      "ogLocaleAlternate": [
        "<string>"
      ],
      "sourceURL": "<string>",
      "statusCode": 123,
      "title": "<string>",
      "totalPages": 123,
      "url": "<string>"
    },
    "product": {
      "title": "<string>",
      "url": "<string>",
      "variants": [
        {
          "availability": {
            "inStock": true,
            "text": "<string>"
          },
          "id": "<string>",
          "images": [
            {
              "url": "<string>",
              "alt": "<string>"
            }
          ],
          "price": {
            "amount": 123,
            "currency": "<string>",
            "formatted": "<string>"
          },
          "sale": {
            "originalPrice": {
              "amount": 123,
              "currency": "<string>",
              "formatted": "<string>"
            }
          },
          "sku": "<string>",
          "title": "<string>",
          "values": {}
        }
      ],
      "brand": "<string>",
      "category": "<string>",
      "description": "<string>"
    },
    "rawHtml": "<string>",
    "screenshot": "<string>",
    "summary": "<string>",
    "video": "<string>",
    "warning": "<string>"
  },
  "success": true
}

{
  "error": "Payment required to access this resource."
}

{
  "error": "Request rate limit exceeded. Please wait and try again later."
}

{
  "code": "UNKNOWN_ERROR",
  "error": "An unexpected error occurred on the server.",
  "success": false
}

Interacciones

Para las interacciones del navegador (hacer clic, escribir, navegar, extraer contenido dinámico), usa el endpoint de Interact. Primero haz scraping de una página y luego llama a POST /v2/scrape/{scrapeId}/interact con un prompt en lenguaje natural o código de Playwright para realizar acciones en la página. Consulta la documentación de Interact para ver todos los detalles y ejemplos. Opcionalmente, también puedes usar el parámetro actions, aunque no se recomienda usarlo para interacciones complejas.

¿Eres un agente de IA que necesita una clave de API de Firecrawl? Consulta firecrawl.dev/agent-onboarding/SKILL.md para obtener instrucciones de incorporación automatizada.

Autorizaciones

Authorization

string

header

requerido

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Cuerpo

application/json

url

string<uri>

requerido

La URL que se va a scrapear

actions

Acciones que se realizarán en la página antes de extraer el contenido

Show child attributes

auditMetadata

object

Atribución de usuario incluida en los eventos de registro SIEM cuando SIEM Logging está habilitado para la organización.

Show child attributes

blockAds

boolean

predeterminado:true

Habilita el bloqueo de anuncios y de ventanas emergentes de cookies.

excludeTags

string[]

Etiquetas que se excluirán de la salida.

formats

Formatos de salida que se incluirán en la respuesta. Puedes especificar uno o varios formatos, ya sea como cadenas (p. ej., 'markdown') o como objetos con opciones adicionales (p. ej., { type: 'json', schema: {...} }). Algunos formatos requieren configurar opciones específicas. Ejemplo: ['markdown', { type: 'json', schema: {...} }].

Show child attributes

headers

object

Encabezados que se enviarán en la solicitud. Pueden usarse para enviar cookies, user-agent, etc.

includeTags

string[]

Etiquetas que se incluirán en la salida.

location

object

Configuración de ubicación para la solicitud. Cuando se especifica, se utilizará un proxy adecuado si está disponible y se emularán la configuración de idioma y la zona horaria correspondientes. De manera predeterminada será "US" si no se especifica.

Show child attributes

lockdown

boolean

predeterminado:false

Si es true, la solicitud se atiende únicamente desde la caché de Firecrawl y nunca se realiza una solicitud saliente a la URL de destino. Está diseñado para entornos con requisitos estrictos de cumplimiento o aislados de redes externas, donde la propia solicitud de scraping podría filtrar información sensible. Si no hay una entrada en caché, devuelve un 404 con el código de error SCRAPE_LOCKDOWN_CACHE_MISS (la URL nunca se registra cuando no hay una entrada en caché). Las solicitudes de Lockdown se consideran de retención de datos cero. El valor predeterminado de maxAge se amplía a 2 años para que las páginas ya almacenadas en caché sigan siendo aptas. Se facturan 5 créditos en caso de acierto de caché y 1 crédito en caso de fallo de caché.

maxAge

integer

predeterminado:172800000

Devuelve una versión en caché de la página si su antigüedad es menor que este valor en milisegundos. Si la versión en caché de la página es más antigua que este valor, se hará scraping de la página. Si no necesitas datos extremadamente recientes, habilitar esto puede acelerar tus procesos de scraping hasta un 500 %. El valor predeterminado es de 2 días.

minAge

integer

<[ { "key": "0", "translation": "Cuando se establece, la solicitud solo consulta la caché y nunca inicia una nueva extracción. El valor se expresa en milisegundos y especifica la antigüedad mínima que deben tener los datos almacenados en caché. Si existen datos en caché que coinciden, se devuelven al instante. Si no se encuentran datos en caché, se devuelve un 404 con el código de error SCRAPE_NO_CACHED_DATA. Establécelo en 1 para aceptar cualquier dato en caché, independientemente de su antigüedad." } ]</>

mobile

boolean

predeterminado:false

Defínelo en true si quieres emular el scraping desde un dispositivo móvil. Útil para probar páginas responsive y tomar capturas de pantalla móviles.

onlyCleanContent

boolean

predeterminado:false

Beta. Ejecuta una pasada adicional basada en LLM sobre el markdown generado para eliminar el contenido repetitivo residual que onlyMainContent puede pasar por alto (banners de cookies, bloques de anuncios, widgets para compartir en redes sociales, rutas de navegación, suscripciones a boletines, secciones de comentarios y listas de artículos relacionados). Se conservan los encabezados, las listas, las tablas, los bloques de código, las referencias de imágenes y los enlaces en línea. Puede combinarse con onlyMainContent (la configuración más habitual) o usarse por sí solo. Se omite con una advertencia cuando el markdown supera el límite de tokens de salida del modelo de limpieza (se conserva el markdown original). No es compatible con solicitudes con retención cero de datos.

onlyMainContent

boolean

predeterminado:true

Devuelve solo el contenido principal de la página, excluyendo encabezados, navegación, pies de página, etc. Es un filtro determinista a nivel de HTML que se aplica antes de generar el markdown; no interviene ningún LLM.

parsers

object[]

Controla cómo se procesan los archivos durante el scraping. Cuando se incluye "pdf" (valor predeterminado), se extrae el contenido del PDF y se convierte a formato Markdown, con la facturación basada en el número de páginas (1 crédito por página). Cuando se pasa un array vacío, el archivo PDF se devuelve codificado en base64 con una tarifa fija de 1 crédito por todo el PDF.

Show child attributes

profile

object

Habilita el almacenamiento persistente del navegador entre sesiones de scraping e interacción. Pasa un perfil al hacer scraping para conservar las cookies, localStorage y los datos de sesión. Las sesiones con el mismo nombre de perfil comparten el estado del navegador.

Show child attributes

proxy

enum<string>

predeterminado:auto

Especifica el tipo de proxy que se usará.

basic: Proxies para hacer scraping de sitios con poca o ninguna protección antibots. Son rápidos y suelen funcionar bien.
enhanced: Proxies avanzados para hacer scraping de sitios con soluciones antibots más sofisticadas. Son más lentos, pero más fiables en ciertos sitios. Pueden costar hasta 5 créditos por solicitud.
auto: Firecrawl reintentará automáticamente el scraping con proxies mejorados si el proxy básico falla. Si el reintento con enhanced tiene éxito, se cobrarán 5 créditos por el scraping. Si el primer intento con basic tiene éxito, solo se cobrará el coste normal.

Opciones disponibles:

basic,

enhanced,

auto

redactPII

predeterminado:false

Redacta la información de identificación personal del markdown devuelto. Pasa true para usar la configuración predeterminada, o un objeto para ajustar el modo, las entidades y el estilo de reemplazo.

removeBase64Images

boolean

predeterminado:true

Elimina todas las imágenes en base64 de la salida en markdown, que puede ser excesivamente larga. Esto no afecta a los formatos html ni rawHtml. El texto alternativo de la imagen permanece en la salida, pero la URL se sustituye por un marcador de posición.

skipTlsVerification

boolean

predeterminado:true

Omitir la verificación de certificados TLS al realizar solicitudes.

storeInCache

boolean

predeterminado:true

Si es true, la página se almacenará en el índice y la caché de Firecrawl. Establecerlo en false es útil si tu actividad de scraping puede plantear problemas relacionados con la protección de datos. El uso de algunos parámetros asociados con scraping de datos sensibles (por ejemplo, acciones, headers) hará que este parámetro sea false.

threatProtection

Threat Protection Override · object

Anulación por solicitud de Protección contra amenazas. Los campos que proporciones reemplazan los campos correspondientes de la política de tu organización solo para esta solicitud; los campos omitidos conservan sus valores a nivel de organización. Requiere que Protección contra amenazas esté habilitada para tu equipo (función enterprise); de lo contrario, la solicitud se rechaza con un 403. Si tu organización ha deshabilitado las anulaciones por solicitud, cualquier solicitud que incluya este objeto se rechaza con un 403. Si Protección contra amenazas se aplica de forma obligatoria a tu equipo, mode no puede establecerse en off.

Show child attributes

timeout

integer

predeterminado:60000

Tiempo de espera en milisegundos para la solicitud. El mínimo es 1000 (1 segundo). El valor predeterminado es 60000 (60 segundos). El máximo es 300000 (300 segundos).

Rango requerido: 1000 <= x <= 300000

waitFor

integer

predeterminado:0

Especifica un tiempo de espera en milisegundos antes de obtener el contenido, dando a la página tiempo suficiente para cargarse. Este tiempo de espera es adicional a la función de espera inteligente de Firecrawl.

zeroDataRetention

boolean

predeterminado:false

Si se establece en true, se habilitará la no retención de datos para este scraping. Para activar esta función, ponte en contacto con help@firecrawl.dev

Respuesta

Respuesta satisfactoria

data

object

Show child attributes

success

boolean

Comentarios sobre la búsqueda

Raspado en lote

Uso de la API

Endpoints de búsqueda

Endpoints de scraping

Endpoints de interacción

Endpoints de Research Index

Endpoints de mapeo

Endpoints de procesamiento

Endpoints de rastreo

Endpoints de supervisión

Endpoints de feedback

Endpoints de depuración con agentes

Endpoints de la cuenta

Cargas útiles de webhook

Integración de socios

Interacciones

Autorizaciones

Cuerpo

Respuesta

​Interacciones

Autorizaciones

Cuerpo

Respuesta

Interacciones