机器学习西瓜书学习笔记【第四章】

2021-01-19

第4章决策树

决策树学习的目的：是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。

4.2 划分选择

4.2.1 信息增益

意义：一般而言，信息增益越大，则意味着使用属性 a 来进行划分所获得的 ”纯度提升“ 越大。
选择：选择信息增益最大的为划分属性。若及中枢性均取得最大信息增益，那么任选其一即可。

4.2.2 增益率

产生原因：信息增益准则对取值数目较多的属性有所偏好，为了减少这种偏好带来的不利影响，产生了增益率。
意义：增益率准则对可取数值数目较少的属性有所偏好。
使用方法：并不是直接选择增益率或信息增益准则，而是使用一个启发式[Quinlan, 1993]：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

4.2.3 基尼指数

意义：直观来说，Gini(D) 反映了从数据集 D 中随机抽取两个样本，其类别标记不一致的概率，因此，Gini(D)越小，则数据集 D 的纯度越高。
选择：在候选属性集合中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。

4.4 连续与缺失值

4.4.1 连续值处理

连续属性离散化：eg：二分法
具体做法：
- ① 将数值从小到大排序
- ② 基于划分点 t 将子集分为【D小于等于】【D大于】
  - 共有 n - 1 个候选划分点 t 可取。
  - 注意：对于相邻属性值来说，取中间任何一个值对结果不会有影响，因此我们这里取中位点。
- ③ 选出最大的信息增益的划分点。
例：

注意：若当前结点划分属性为连续属性，该属性还可作为其后代结点的划分属性。【例：在父节点上使用了 “密度 ≤ 0.381”，不会禁止在子节点上使用 “密度 ≤ 0.294”】

4.4.2 缺失值处理

例：

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true

第4章 决策树