Skip to content

IasmimHorrana/Web-Scraping-MercadoLivre

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Pipeline ETL Python - Web Scraping com Scrapy

Fluxograma ETL

Conteúdo do estudo > Clique para construir um projeto de dados do zero com Luciano Galvão.

Diagrama do Fluxo: Coleta

Fluxograma ETL

Funcionalidades

Este projeto é um web spider desenvolvido utilizando a biblioteca Scrapy em Python, destinado a extrair informações de produtos da plataforma MercadoLivre.

Extração de Dados:

  • O spider é capaz de acessar a página inicial de uma categoria específica de produtos no MercadoLivre e extrair informações detalhadas de cada produto listado, incluindo marca, nome, preços antigo e novo, avaliação e quantidade de avaliações.

Iteração sobre Páginas:

  • O spider é projetado para iterar sobre múltiplas páginas de resultados de pesquisa, permitindo a coleta de um grande volume de dados.

Limitação de Páginas:

  • O número máximo de páginas que o spider pode percorrer é configurável para controlar o escopo da extração de dados.

Exportação de Dados:

  • Os dados extraídos podem ser exportados para diferentes formatos, como JSON, CSV, ou diretamente para um banco de dados, para posterior análise e processamento.

Diagrama do Fluxo: Transformação

Fluxograma ETL

Instalação

Clone o repositório:

$ git clone https://github.com/IasmimHorrana/web-scraping.git
$ cd web-scraping

Crie um ambiente virtual:

$ python -m venv venv 
$ venv\Scripts\activate 
$ pip install scrapy 
  • Cria o ambiente virtual / Ativar o ambiente no windows / Instalar o Scrapy dentro do ambiente virtual.

Instalar as dependências:

$ pip install -r requirements.txt

Executar o Spider:

$ scrapy crawl mercadolivre

Executar a interface de análise com Streamlit:

$ streamlit run app.py
Fluxograma ETL Fluxograma ETL Fluxograma ETL

Fim.

About

My First Web Scraping Project (LiveCode: Jornada de Dados)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages