藤原栗子工作室: 機器學習_ML_樹的特徵重要性如何來的?

2018年1月15日星期一

機器學習_ML_樹的特徵重要性如何來的?

tags: `python` `scikit-learn` `feature_importances` `DecisionTreeClassifier`

在執行決策樹或隨機森林、極限樹…等演算法之後，總是會透過feature_importances來取得特徵重要性，但是這個特徵重要性是如何來的?
程式碼是cython，從這邊可以看到，計算方式是取根的樣本權重乘上熵(或gini)減掉左右枝葉一樣計算的值，以此確認資料的不確定性消除了多少。

資訊熵是資料不確定性的度量標準，愈大代表混亂程度愈大

利用花的資料集來做驗證，如果不出樹狀圖再註解掉出圖的語法就好。



#  Import lib
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
from sklearn.datasets import load_iris
import pydotplus
import pandas as pd
import numpy as np
import random
#  載入資料
iris = load_iris()
X = iris.data
y = iris.target

#  資料轉入pandas
df = pd.DataFrame(data=X, columns=iris.feature_names)

#  確認資料狀況
df.head()

#  檢查dataframe資訊
df.info()

#  訓練模型
tree = DecisionTreeClassifier(criterion='entropy',
                                splitter='best',
                                random_state=150)
tree.fit(X, y)

#  產生樹狀圖
dot_data = export_graphviz(tree, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True) 
graph = pydotplus.graph_from_dot_data(dot_data)
#  產生png檔
graph.write_png('sample_tree.png')

#  將特徵權重排序之後寫入dict
feature_importances_ = {}
_feat_labels = iris.feature_names
_importances = tree.feature_importances_

# 取得特徵權重排序的索引值
indices = np.argsort(_importances)[::-1]

for f in range(X.shape[1]):
    feature_importances_.update({_feat_labels[indices[f]]: _importances[indices[f]]})

#  確認特徵權重
feature_importances_

#  寫入excel，手動試算一次
writer = pd.ExcelWriter('output.xlsx')
df.to_excel(writer,'Sheet1')
writer.save()