Chapter3:特徴量の名前と重要度を出力している部分について #5

kawase621 · 2024-12-28T09:28:31Z

Chapter3で重要度の高い順に特徴量の名前と重要度を出力している部分に誤りがあるように思います。

for feat  in range(Features):
    print(
        "Feature: {}Importance: {:.5f}"\
          .format(MalwareDataset.columns[2+Index[feat]].ljust(30),
                  FI[Index[feat]])
          )

「Index」という変数は、以下のようなフローでできていると思います。
①SelectFromModelを使って重要度の大きい特徴量のみに削減した変数「X」でExtraTreeClassifierを学習(fit)。
②ExtraTreeClassifierの特徴量の重要度をリスト形式で出力(FI)。
③FIから重要度の高い順にインデックスを作成(Index)。
つまり、FIの次元、すなわち特徴量の個数は削減後のものという認識です。

一方で、MalwareDatasetは削減前の特徴量を持ったままです。

よって、削減前の要素数を持つMalwareDatasetに対して、削減後のインデックスを使って「MalwareDataset.colums[2+Index[feat]]」のように特徴量の名前を取得しようとしているので、間違った結果になるはずです。

The text was updated successfully, but these errors were encountered:

nenaiko-dareda · 2024-12-31T05:17:32Z

知らせてくださり、ありがとうございます！

確認した上で修正させていただきます！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Chapter3:特徴量の名前と重要度を出力している部分について #5

Chapter3:特徴量の名前と重要度を出力している部分について #5

kawase621 commented Dec 28, 2024

nenaiko-dareda commented Dec 31, 2024

Chapter3:特徴量の名前と重要度を出力している部分について #5

Chapter3:特徴量の名前と重要度を出力している部分について #5

Comments

kawase621 commented Dec 28, 2024

nenaiko-dareda commented Dec 31, 2024