Este projeto é uma extensão do trabalho realizado conjunto com a ScoreEase. O objetivo é extração de dados do Cadastro Nacional de Pessoas Jurídicas (CNPJ). Mais especificamente, extrairemos as seguintes tabelas:
- CNAES
- Empresas
- Estabelecimentos
- Motivos ?
- Municipios
- Naturezas
- Paises
- QualificaçÕes
- Simples
- Socios
Primeiro passo ativando o virtual env
source venv/bin/activate
Instalando as dependências do projeto:
pip3 install -r requirements.txt
Comando para iniciar o serviço do postgres via docker:
docker run -d \
--rm \
--name scraperDb \
-e POSTGRES_PASSWORD=scraper \
-e POSTGRES_USER=scraper \
-e POSTGRES_DB=scraperDB \
-e PGDATA=/var/lib/postgresql/data/pgdata \
-v pgdata:/var/lib/postgresql/data \
-p 5432:5432 \
postgres
Parar o serviço do docker
docker stop <container-id>
Para criar uma nova migração:
yoyo new --sql
Para ver lista de migrations:
yoyo list
Para executar as migrations:
yoyo apply
Todas tabelas estão descritas no documento em pdf na pasta .docs