Pipeline ETL Python - Web Scraping com Scrapy

Conteúdo do estudo > Clique para construir um projeto de dados do zero com Luciano Galvão.

Diagrama do Fluxo: Coleta

Funcionalidades

Este projeto é um web spider desenvolvido utilizando a biblioteca Scrapy em Python, destinado a extrair informações de produtos da plataforma MercadoLivre.

Extração de Dados:

O spider é capaz de acessar a página inicial de uma categoria específica de produtos no MercadoLivre e extrair informações detalhadas de cada produto listado, incluindo marca, nome, preços antigo e novo, avaliação e quantidade de avaliações.

Iteração sobre Páginas:

O spider é projetado para iterar sobre múltiplas páginas de resultados de pesquisa, permitindo a coleta de um grande volume de dados.

Limitação de Páginas:

O número máximo de páginas que o spider pode percorrer é configurável para controlar o escopo da extração de dados.

Exportação de Dados:

Os dados extraídos podem ser exportados para diferentes formatos, como JSON, CSV, ou diretamente para um banco de dados, para posterior análise e processamento.

Diagrama do Fluxo: Transformação

Instalação

Clone o repositório:

$ git clone https://github.com/IasmimHorrana/web-scraping.git
$ cd web-scraping

Crie um ambiente virtual:

$ python -m venv venv 
$ venv\Scripts\activate 
$ pip install scrapy

Cria o ambiente virtual / Ativar o ambiente no windows / Instalar o Scrapy dentro do ambiente virtual.

Instalar as dependências:

$ pip install -r requirements.txt

Executar o Spider:

$ scrapy crawl mercadolivre

Executar a interface de análise com Streamlit:

$ streamlit run app.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Pipeline ETL Python - Web Scraping com Scrapy

Diagrama do Fluxo: Coleta

Funcionalidades

Extração de Dados:

Iteração sobre Páginas:

Limitação de Páginas:

Exportação de Dados:

Diagrama do Fluxo: Transformação

Instalação

Clone o repositório:

Crie um ambiente virtual:

Instalar as dependências:

Executar o Spider:

Executar a interface de análise com Streamlit:

Fim.

Files

README.md

Latest commit

History

README.md

File metadata and controls

Pipeline ETL Python - Web Scraping com Scrapy

Diagrama do Fluxo: Coleta

Funcionalidades

Extração de Dados:

Iteração sobre Páginas:

Limitação de Páginas:

Exportação de Dados:

Diagrama do Fluxo: Transformação

Instalação

Clone o repositório:

Crie um ambiente virtual:

Instalar as dependências:

Executar o Spider:

Executar a interface de análise com Streamlit:

Fim.