Una cuenta de AWS con acceso a Lambda
Una clave de la API de Firecrawl — obtén una gratis
mkdir firecrawl-lambda && cd firecrawl-lambda
npm init -y
npm install @mendable/firecrawl-js
Crea el archivo index.mjs con un manejador de búsqueda:
import Firecrawl from "@mendable/firecrawl-js" ;
const firecrawl = new Firecrawl ({ apiKey: process . env . FIRECRAWL_API_KEY });
export async function handler ( event ) {
const body = JSON . parse ( event . body || "{}" );
if ( body . action === "search" ) {
const results = await firecrawl . search ( body . query , { limit: 5 });
return {
statusCode: 200 ,
body: JSON . stringify ( results ),
};
}
return { statusCode: 400 , body: JSON . stringify ({ error: "Unknown action" }) };
}
Hacer scraping de una página
Agrega una acción scrape al mismo manejador:
if ( body . action === "scrape" ) {
const result = await firecrawl . scrape ( body . url );
return {
statusCode: 200 ,
body: JSON . stringify ( result ),
};
}
Interactuar con una página
Agrega una acción interact para controlar una sesión activa del navegador: haz clic en botones, rellena formularios y extrae contenido dinámico:
if ( body . action === "interact" ) {
const result = await firecrawl . scrape ( "https://www.amazon.com" , {
formats: [ "markdown" ],
});
const scrapeId = result . metadata ?. scrapeId ;
await firecrawl . interact ( scrapeId , {
prompt: "Search for iPhone 16 Pro Max" ,
});
const response = await firecrawl . interact ( scrapeId , {
prompt: "Click on the first result and tell me the price" ,
});
await firecrawl . stopInteraction ( scrapeId );
return {
statusCode: 200 ,
body: JSON . stringify ({ output: response . output }),
};
}
Empaqueta y despliega con la AWS CLI:
zip -r function.zip index.mjs node_modules/
aws lambda create-function \
--function-name firecrawl-scraper \
--runtime nodejs20.x \
--handler index.handler \
--zip-file fileb://function.zip \
--role arn:aws:iam::YOUR_ACCOUNT:role/lambda-role \
--environment Variables="{FIRECRAWL_API_KEY=fc-YOUR-API-KEY}" \
--timeout 60
Establece el timeout de Lambda en al menos 30 segundos. El scraping de páginas dinámicas y las sesiones de interactuar pueden tardar más que el timeout predeterminado de 3 segundos.
Documentación de búsqueda Buscar en la web y obtener el contenido completo de la página
Documentación de scraping Todas las opciones de scraping, incluidos los formatos, las acciones y los proxies
Documentación de interacción Haz clic, completa formularios y extrae contenido dinámico
Referencia del SDK de Node Referencia completa del SDK con rastreo, mapeo, extracción por lotes y más