Random Forest

import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, roc_auc_score

# 1. Load Data
data = pd.read_csv('mpp.csv')
data = data[data['Measurement'] != -999]

bins = [0, 0.0005, 0.001, 0.008, 0.01, 1, 100000]
labels = [0, 1, 2, 3, 4, 5]

data['classification'] = pd.cut(data['Measurement'], bins=bins, labels=labels, right=False)
data['classification'] = pd.to_numeric(data['classification']).astype('int64')
data = data.sort_values(by='Year')

X = data.drop(columns=['Measurement','classification', 'Date', 'Country', 'sea_ice_fraction']) 
y = data['classification']  # target variaable

X_scaled = scaler.fit_transform(X)

# 3. Divide the training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. Create a Random Forest Classifier
model = RandomForestClassifier(
    n_estimators=230,
    max_depth=20,
    min_samples_leaf=1,
    min_samples_split=2,
    bootstrap=True,
    class_weight='balanced', #{0:1, 1:1, 2:1, 3:1, 4:1, 5:2},
    random_state=42    
)

scores = cross_val_score(model, X, y, cv=5, scoring='accuracy') 
print(f"cross validation: {scores}")
print(f"cross validation accuracy: {scores.mean():.2f}")

# 5. Train the model
model.fit(X_train, y_train)

# 6. Make predictions
y_pred = model.predict(X_test)

# 7. Evaluate the model
accuracy = accuracy_score(y_test, y_pred)
print(f'accuracy: {accuracy * 100:.2f}%')
print('report:')
print(classification_report(y_test, y_pred, zero_division=0))

y_pred_proba = model.predict_proba(X_test)  # Predict probabilities for all classes
auc_score = roc_auc_score(y_test, y_pred_proba, multi_class='ovr', average='macro')
print(f"AUC Score: {auc_score}")

print(data['classification'].value_counts())

model.fit(X_train, y_train)
feature_importances = model.feature_importances_
print(f"feature importance: {feature_importances}")