【菜菜sklearn2020】决策树

2020-11-25

决策树（Decision Tree）是一种非参数的监督式学习方法，它能从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。

模块 sklearn.tree：

tree.DecisionTreeClassifier	分类树
tree.DecisionTreeRegressor	回归树
tree.export_graphviz	将生成的决策树导出为DOT格式，画图专用
tree.ExtraTreeClassifier	高随机版本的分类树
tree.ExtraTreeRegressor	高随机版本的回归树

sklearn 的基本建模流程：

一、分类树

在上面的基本流程下，分类树对应的代码是：

from sklearn import tree			# 导入需要的模块

clf = tree.DecisionTreeClassifier()		# 实例化
clf = clf.fit(X_train, y_train)			# 用训练集数据训练模型
result = clf.score(X_test, Y_test)		# 导入测试集，从接口中调用需要的信息

1.1 参数

1.1.1 重要参数

参数名称	描述	使用案例
criterion	规定纯度的计算方法。有两种选择 `entropy`和`gini` `entropy`：信息熵——代表父节点与子节点的纯度之差 `gini`：反应了从数据集中随机抽取两个样本，其类别标记不一致的概率选择：效果基本相同，信息熵对纯度更加敏感，因此高位数据或噪音多时 gini 更适合	clf = tree.DecisionTreeClassifier(criterion=”entropy”） clf = tree.DecisionTreeClassifier(criterion=”gini”）
random_state	设置分枝中的随机模式的参数，默认`None`，高维数据随机性会更加明显，每次结果都一样，只要在该参数后加上任意整数，即可让结果稳定下来。数字并没有具体含义。	clf = tree.DecisionTreeClassifier(random_state = 30)
splitter	用来控制决策树中的随机选项，有两种选择`best`和`random` `best`：虽然会在分枝时随机，但是还是会优先选择更重要的特征进行分枝 `random`：决策树的分枝会更加随机	clf = tree.DecisionTreeClassifier(splitter=”best”) clf = tree.DecisionTreeClassifier(splitter=”random”)

1.1.2 剪枝参数

参数名称	描述	使用案例
max_depth	限制树的最大深度，超过设定深度的树枝全部砍掉	clf = tree.DecisionTreeClassifier(max_depth=3)
min_samples_leaf	一个节点在分之后的子节点必须包含至少`min_samples_leaf`个训练样本，否则分枝就不会发生。一般搭配 `max_depth`使用，在回归树中有神奇效果，可以让模型变得更加平滑。	clf = tree.DecisionTreeClassifier(min_samples_leaf=2)
min_samples_split	一个节点必须包至少`min_samples_split`个训练样本，这个节点才允许被分枝	clf = tree.DecisionTreeClassifier(min_samples_split=20)
max_feature	限制分支时考虑的特征个数，超过限制个数的特征都会被舍弃，来限制高维数据的过拟合，比较暴力	clf = tree.DecisionTreeClassifier(max_feature=4)
min_impurity_decrease	限制信息增益的大小	clf = tree.DecisionTreeClassifier(mini_impurity_decrease=10)

1.2 属性

feature_importances_

描述：查看各个特性对模型的重要程度

1.3 接口

接口名称	描述	使用案例
apply	返回每个测试样本所在的叶子节点的索引	clf.apply(Xtest)
predict	返回每个测试样本的分类/回归结果	clf.predict(Xtest)

二、回归树

from sklearn.tree import DecisionTreeRegressor

reg = DecisionTreeRegressor(max_depth=2)
reg.fit(X,y)
y = reg.predict(X_text)

注意：因为拟合的需要，X 需要是二维，y 需要是一维，降维函数 np的ravel()，升维函数 np 的newaxis

三、经典案例：泰坦尼克号生存者预测

数据集来源：https://www.kaggle.com/c/titanic

# 导入所需要的库
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score

# 导入所需要的数据
data = pd.read_csv(r"C:\Users\Gavin\Desktop\data.csv")

# 对数据集进行预处理
# 筛选特征
data.drop(["Cabin","Name","Ticket"],inplace=True,axis = 1)
# 处理缺失值
data["Age"] = data["Age"].fillna(data["Age"].mean())
data = data.dropna()
labels = data["Embarked"].unique().tolist()
data["Embarked"] = data["Embarked"].apply(lambda x:labels.index(x))
labels = data["Embarked"].unique().tolist()
data["Sex"] = (data["Sex"] =="male").astype("int")

# 提取标签和特征矩阵，分测试集和训练集
x = data.iloc[:,data.columns != "Survived"]
y = data.iloc[:,data.columns == "Survived"]

Xtrain, Xtest, Ytrain, Ytest = train_test_split(x, y, test_size=0.3)
for i in [Xtrain, Xtest, Ytrain, Ytest]:
    i.index = range(i.shape[0])

# 导入模型，粗略跑一下查看结果    
clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)

clf = DecisionTreeClassifier(random_state=25)
score = cross_val_score(clf,x,y,cv=10).mean()

# 在不同的max_depth下观察模型的拟合状况
tr = []
te = []
for i in range(10):
    clf = DecisionTreeClassifier(random_state=25
                                ,max_depth = i+1
                                ,criterion="entropy"
                                )
    clf = clf.fit(Xtrain, Ytrain)
    score_tr = clf.score(Xtrain, Ytrain)
    score_te = cross_val_score(clf,x,y,cv=10).mean()
    tr.append(score_tr)
    te.append(score_te)
print(max(te))
plt.plot(range(1,11), tr, color="red", label="train")
plt.plot(range(1,11), te, color="blue",label= "test")
plt.xticks(range(1,11))
plt.legend()
plt.show()

# 用网格搜索调整参数
gini_threhold = np.linspace(0,0.5,20)       # 取从 0 到 0.5 中的 50 个数，从小到大
#entropy_threholds = np.linspace(0,1,50)
# 一串参数和这些参数对应的，我们希望网格搜索来搜索的参数的取值范围
parameters = {"criterion":("gini", "entropy")
              ,"splitter":("best","random")
              ,"max_depth":[*range(1,10)]
              ,"min_samples_leaf":[*range(1,50,5)]
              ,"min_impurity_decrease":[*np.linspace(0,0.5,50)  ]
}

clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(Xtrain,Ytrain)
GS.best_params_ # 从我们输入的参数和参数取值的列表中，返回最佳组合
GS.best_score_ # 网格搜过后的模型的评判标准

四、参考文献

【2020机器学习全集】菜菜的sklearn完整版