Scraping de Wikipedia

Aprende a hacer scraping de Wikipedia de forma efectiva para investigación, extracción de conocimiento y creación de aplicaciones de IA.

Configuración

npm install firecrawl zod

Casos de uso

Automatización de la investigación y la verificación de hechos
Creación de grafos de conocimiento
Extracción de contenido multilingüe
Recopilación de contenido educativo
Extracción de información de entidades

scraping con modo JSON

Extrae datos estructurados de artículos de Wikipedia usando esquemas de Zod.

import { Firecrawl } from 'firecrawl';
import { z } from 'zod';

const firecrawl = new Firecrawl({ apiKey: process.env.FIRECRAWL_API_KEY });

const result = await firecrawl.scrape('https://en.wikipedia.org/wiki/JavaScript', {
    formats: [{
        type: 'json',
        schema: z.object({
            name: z.string(),
            creator: z.string(),
            firstAppeared: z.string(),
            typingDiscipline: z.string(),
            website: z.string()
        })
    }]
});

console.log(result.json);

Buscar

Busca artículos en Wikipedia.

import { Firecrawl } from 'firecrawl';

const firecrawl = new Firecrawl({ apiKey: process.env.FIRECRAWL_API_KEY });

const searchResult = await firecrawl.search('quantum computing site:en.wikipedia.org', {
    limit: 10,
    sources: [{ type: 'web' }], // { type: 'news' }, { type: 'images' }
    scrapeOptions: {
        formats: ['markdown']
    }
});

console.log(searchResult);

scraping

Extrae datos de un único artículo de Wikipedia.

import { Firecrawl } from 'firecrawl';

const firecrawl = new Firecrawl({ apiKey: process.env.FIRECRAWL_API_KEY });

const result = await firecrawl.scrape('https://en.wikipedia.org/wiki/Artificial_intelligence', {
    formats: ['markdown'], // p. ej. html, links, etc.
    onlyMainContent: true
});

console.log(result);

Map

Descubre todas las URLs disponibles en un portal o categoría de Wikipedia. Nota: Map solo devuelve URLs, sin contenido.

import { Firecrawl } from 'firecrawl';

const firecrawl = new Firecrawl({ apiKey: process.env.FIRECRAWL_API_KEY });

const mapResult = await firecrawl.map('https://en.wikipedia.org/wiki/Portal:Computer_science');

console.log(mapResult.links);
// Devuelve un array de URLs sin contenido

Crawl

Rastrea varias páginas de la documentación o de las categorías de Wikipedia.

import { Firecrawl } from 'firecrawl';

const firecrawl = new Firecrawl({ apiKey: process.env.FIRECRAWL_API_KEY });

const crawlResult = await firecrawl.crawl('https://en.wikipedia.org/wiki/Portal:Artificial_intelligence', {
    limit: 10,
    scrapeOptions: {
        formats: ['markdown']
    }
});

console.log(crawlResult.data);

Extracción por lotes

Extrae varias URL de Wikipedia simultáneamente.

import { Firecrawl } from 'firecrawl';

const firecrawl = new Firecrawl({ apiKey: process.env.FIRECRAWL_API_KEY });

// Esperar finalización
const job = await firecrawl.batchScrape([
    'https://en.wikipedia.org/wiki/Machine_learning',
    'https://en.wikipedia.org/wiki/Artificial_intelligence',
    'https://en.wikipedia.org/wiki/Deep_learning'],
    {
        options: {
            formats: ['markdown']
        },
        pollInterval: 2,
        timeout: 120
    }
);


console.log(job.status, job.completed, job.total);

console.log(job);

Primeros pasos

Endpoints principales

Más

Inicios rápidos

Guías para desarrolladores

Webhooks

Casos de uso

Otros

Contribuciones

Configuración

Casos de uso

scraping con modo JSON

Buscar

scraping

Map

Crawl

Extracción por lotes

​Configuración

​Casos de uso

​scraping con modo JSON

​Buscar

​scraping

​Map

​Crawl

​Extracción por lotes

Configuración

Casos de uso

scraping con modo JSON

Buscar

scraping

Map

Crawl

Extracción por lotes