diff --git a/README.md b/README.md index 61cf5ec..61da8bc 100644 --- a/README.md +++ b/README.md @@ -3,3 +3,32 @@ Repositório destinado a adição de dados no datalake mantido pelo canal [Téo Me Why](https://www.twitch.tv/teomewhy). Todos os códigos necessários e informações básicas sobre os dados serão disponibilizados nestes repositório. + +## Dados existentes + +|Nome|Contexto|Fonte|Schema| +|---|---|---|---| +|Censo escolar|Microdados do Censo Escolar da Educacação Básica|[:link:](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar)|bronze_censo_escolar| +|Enem|Microdados do Enem|[:link:](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem)|bronze_enem| +|Gamers Club|Estatísticas de partidas, medalhas, players|[:link:](https://www.kaggle.com/datasets/gamersclub/brazilian-csgo-plataform-dataset-by-gamers-club)|bronze_gc| +|Olist|Vendas e-commerce|[:link:](https://www.kaggle.com/datasets/gamersclub/brazilian-csgo-plataform-dataset-by-gamers-club)|bronze_olist| +|TSE|Eleições|[:link:](https://dadosabertos.tse.jus.br/dataset/)|bronze_tse, silver_tse| + +## Como solicitar novos dados? + +Abra uma issue neste projeto com o seguinte template: + +``` +Título: Nome da fonte de dados + +- Descrição da fonte de dados: + - Do que diz respeito? + - Qual o contexto deste dado? + - Quantos anos de histórico? + - Qual o volume? + +- Link para acesso aos dados. + +- Por que este dado é relevante e deveria estar no datalake? + +``` diff --git a/src/03.silver/igdb/models/fit_model.py b/src/03.silver/igdb/models/fit_model.py index 957e74b..8ba55fd 100644 --- a/src/03.silver/igdb/models/fit_model.py +++ b/src/03.silver/igdb/models/fit_model.py @@ -91,3 +91,25 @@ .cumsum() .head(50) .index.tolist()) + +# COMMAND ---------- + + + +imputer_0 = imputation.ArbitraryNumberImputer(arbitrary_number=0, variables=features) + +tree_model = ensemble.RandomForestClassifier(min_samples_leaf=250, max_depth=8) + +model_pipeline = pipeline.Pipeline( [('Imputer', imputer_0), + ("Tree Model", tree_model)]) + + +with mlflow.start_run(): + mlflow.sklearn.autolog() + + model_pipeline.fit(X_train, y_train) + + y_prob_test = model_pipeline.predict_proba(X_test) + auc_test = metrics.roc_auc_score(y_test, y_prob_test[:,1]) + mlflow.log_metrics({"auc_test":auc_test}) + diff --git a/src/03.silver/igdb/models/predict_model.py b/src/03.silver/igdb/models/predict_model.py index 304ca2e..56b1cd6 100644 --- a/src/03.silver/igdb/models/predict_model.py +++ b/src/03.silver/igdb/models/predict_model.py @@ -40,6 +40,10 @@ predict_sdf = predict_set.load_df() predict_pdf = predict_df.toPandas() +# COMMAND ---------- + + + # COMMAND ---------- # DBTITLE 1,Predictions diff --git a/src/03.silver/pizza_query/extract.sql b/src/03.silver/pizza_query/extract.sql new file mode 100644 index 0000000..aae0e40 --- /dev/null +++ b/src/03.silver/pizza_query/extract.sql @@ -0,0 +1,13 @@ +-- Databricks notebook source +SELECT * +FROM silver.pizza_query.item_pedido + +-- COMMAND ---------- + +SELECT * +FROM silver.pizza_query.pedido + +-- COMMAND ---------- + +SELECT * +FROM silver.pizza_query.produto