Pipeline ETL Python - Web Scraping com Scrapy

Conteúdo do estudo > Clique para construir um projeto de dados do zero com Luciano Galvão.

Diagrama do Fluxo: Coleta

Funcionalidades

Este projeto é um web spider desenvolvido utilizando a biblioteca Scrapy em Python, destinado a extrair informações de produtos da plataforma MercadoLivre.

Extração de Dados:

O spider é capaz de acessar a página inicial de uma categoria específica de produtos no MercadoLivre e extrair informações detalhadas de cada produto listado, incluindo marca, nome, preços antigo e novo, avaliação e quantidade de avaliações.

Iteração sobre Páginas:

O spider é projetado para iterar sobre múltiplas páginas de resultados de pesquisa, permitindo a coleta de um grande volume de dados.

Limitação de Páginas:

O número máximo de páginas que o spider pode percorrer é configurável para controlar o escopo da extração de dados.

Exportação de Dados:

Os dados extraídos podem ser exportados para diferentes formatos, como JSON, CSV, ou diretamente para um banco de dados, para posterior análise e processamento.

Diagrama do Fluxo: Transformação

Instalação

Clone o repositório:

$ git clone https://github.com/IasmimHorrana/web-scraping.git
$ cd web-scraping

Crie um ambiente virtual:

$ python -m venv venv 
$ venv\Scripts\activate 
$ pip install scrapy

Cria o ambiente virtual / Ativar o ambiente no windows / Instalar o Scrapy dentro do ambiente virtual.

Instalar as dependências:

$ pip install -r requirements.txt

Executar o Spider:

$ scrapy crawl mercadolivre

Executar a interface de análise com Streamlit:

$ streamlit run app.py

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
data		data
img		img
src		src
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Pipeline ETL Python - Web Scraping com Scrapy

Diagrama do Fluxo: Coleta

Funcionalidades

Extração de Dados:

Iteração sobre Páginas:

Limitação de Páginas:

Exportação de Dados:

Diagrama do Fluxo: Transformação

Instalação

Clone o repositório:

Crie um ambiente virtual:

Instalar as dependências:

Executar o Spider:

Executar a interface de análise com Streamlit:

Fim.

About

Releases

Packages

Languages

IasmimHorrana/Web-Scraping-MercadoLivre

Folders and files

Latest commit

History

Repository files navigation

Pipeline ETL Python - Web Scraping com Scrapy

Diagrama do Fluxo: Coleta

Funcionalidades

Extração de Dados:

Iteração sobre Páginas:

Limitação de Páginas:

Exportação de Dados:

Diagrama do Fluxo: Transformação

Instalação

Clone o repositório:

Crie um ambiente virtual:

Instalar as dependências:

Executar o Spider:

Executar a interface de análise com Streamlit:

Fim.

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages