-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathtopvalues.py
34 lines (27 loc) · 1.29 KB
/
topvalues.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
import pandas as pd
# Carregar o arquivo CSV
csv_file = "test-dataset.csv" # Substitua pelo caminho do seu arquivo
data = pd.read_csv(csv_file)
# Exibir informações básicas do DataFrame
print(f"Total de linhas: {len(data)}")
print(f"Colunas disponíveis: {data.columns.tolist()}")
# Função para obter os valores mais frequentes de uma coluna
def get_top_values(column_name, n=5):
return data[column_name].value_counts().head(n)
# Colunas para análise
columns_to_analyze = [
"ClientIP", "ClientRequestHost", "ClientRequestMethod", "ClientRequestURI",
"EdgeStartTimestamp", "ZoneName", "ClientASN", "ClientCountry",
"ClientDeviceType", "ClientSrcPort", "ClientRequestBytes", "ClientRequestPath",
"ClientRequestReferer", "ClientRequestScheme", "ClientRequestUserAgent"
]
# Analisar e exibir os valores mais frequentes de cada coluna
for column in columns_to_analyze:
print(f"\nTop valores para {column}:")
print(get_top_values(column))
# Salvar a análise em um arquivo CSV para relatório
output_file = "top_valores_analise.csv"
top_values = {column: get_top_values(column).to_dict() for column in columns_to_analyze}
report_df = pd.DataFrame.from_dict(top_values, orient='index').transpose()
report_df.to_csv(output_file, index=False)
print(f"\nAnálise salva em: {output_file}")