决策树

date

Sep 11, 2022

Last edited time

Sep 25, 2022 05:11 AM

status

Published

slug

决策树

决策树模型与学习

定义分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型: 内部结点( internal node) 和叶结点( leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。

决策树学习

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树(即能对训练数据进行正确分类的决策树)可能有多个，也可能一个都没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。开始，构建根结点，将所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶结点, 并将这些子集分到所对应的叶结点中去; 如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点。如此递归地进行下去，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。最后每个子集都被分到叶结点上，即都有了明确的类。这就生成了一棵决策树。

决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。由于决策树表示一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型。决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择。决策树的生成只考虑局部最优，相对地，决策树的剪枝则考虑全局最优。

决策树学习常用的算法有ID3、C4.5与CART,下面结合这些算法分别叙述决策树学习的特征选择、决策树的生成和剪枝过程。

特征选择

对特征进行选择的准则是信息增益或者信息增益比.

信息增益

给定一个取有有限值的离散随机变量 , 其概率分布为: .

设训练数据集为 , 表示其样本容量，即样本个数。设有个类 , , 为属于类的样本个数，。设特征有个不同的取值 , 根据特征的取值将划分为个子集 , 为的样本个数，。记子集中属于类的样本的集合为 ,即 , 为的样本个数。

信息熵

熵越大，随机变量的不确定性就越大。从定义可以验证: .

条件熵

条件熵表示在已知随机变量的条件下随机变量的不确定性。随机变量给定的条件下随机变量的条件熵(conditional entropy) , 定义为给定条件下的条件概率分布的熵对的数学期望

信息增益

特征对训练数据集的信息增益 ,定义为集合的经验熵与特征给定条件下的经验条件熵之差，即 .

信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比 (information gain ratio）可以对这一问题进行校正。这是特征选择的另一准则。

特征对训练数据集的信息增益比定义为其信息增益与训练数据集关于特征的值的熵之比，即

信息增益的算法

计算数据集的经验熵 .

计算特征对数据集的经验条件熵 .

计算信息增益.

决策树的生成

ID3 算法

输入: 训练数据集 , 特征集阈值 ;

输出: 决策树。

若中所有实例属于同一类 , 则为单结点树，并将类作为该结点的类标记，返回 ;

若 , 则为单结点树，并将中实例数最大的类作为该结点的类标记，返回 ;

否则，计算中各特征对的信息增益，选择信息增益最大的特征 ;

如果的信息增益小于阈值 ,则置为单结点树，并将中实例数最大的类作为该结点的类标记，返回 ;

否则，对的每一可能值 ; 依将分割为若干非空子集 , 对第个子结点，以为训练集，以为特征集，递归地调用步(1)~(5), 得到子树 , 返回 .

由于 ID3 算法只有树的生成, 因此容易过拟合.

C4.5 生成算法

C4.5算法与ID3算法相似，C4.5 算法对ID3算法进行了改进。C4.5在生成的过程中，用信息增益比来选择特征。

输入: 训练数据集 , 特征集阈值 ;

输出: 决策树。

若中所有实例属于同一类 , 则为单结点树，并将类作为该结点的类标记，返回 ;

若 , 则为单结点树，并将中实例数最大的类作为该结点的类标记，返回 ;

否则，计算中各特征对的信息增益比，选择信息增益比最大的特征 ;

如果的信息增益比小于阈值 ,则置为单结点树，并将中实例数最大的类作为该结点的类标记，返回 ;

否则，对的每一可能值 ; 依将分割为若干非空子集 , 对第个子结点，以为训练集，以为特征集，递归地调用步(1)~(5), 得到子树 , 返回 .

决策树的枝减

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度,对已生成的决策树进行简化。

设树的叶结点个数为 , 是树的叶结点，该叶结点有个样本点，其中类的样本点有个，, 为叶结点上的经验熵，为参数,则决策树学习的损失函数可以定义为

令:

则:

表示模型对训练数据的预测误差，即模型与训练数据的拟合程度，表示模型复杂度，参数控制两者之间的影响。较大的促使选择较简单的模型(树),较小的促使选择较复杂的模型(树)。意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。

剪枝，就是当确定时，选择损失函数最小的模型，即损失函数最小的子树。

树的剪枝算法

输入:生成算法产生的整个树 ,参数 ;

输出: 修剪后的子树。

计算每个结点的经验熵。

递归地从树的叶结点向上回缩, 计算树的损失函数值。

设一组叶结点回缩到其父结点之前与之后的整体树分别为与 , 其对应的损失函数值分别是与 ,如果 , 则进行剪枝, 即将父节点变为新的叶节点.

可以使用动态规划实现

CART 算法

CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。以下将用于分类与回归的树统称为决策树。

CART算法由以下两步组成:

决策树生成:基于训练数据集生成决策树，生成的决策树要尽量大

决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

CART生成

回归树的生成

输入:训练数据集 ;

输出:回归树。

在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树:

选择最优切分变量与切分点 ,求解

遍历变量 ,对固定的切分变量扫描切分点 ,选择使上式达到最小值的对 .

用选定的对划分区域并决定相应的输出值:

继续对两个子区域调用步骤(1)，(2)，直至满足停止条件。
将输入空间划分为个区域 ,生成决策树:

分类树的生成

分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。 基尼指数 分类问题中，假设有个类，样本点属于第类的概率为 ,则概率分布的基尼指数定义为

对于给定的样本集合 ,其基尼指數为

这里，是中属于第类的样本子集，是类的个数。

如果样本集合根据特征是否取某一可能值被分割成和两部分，即

则在特征的条件下，集合的基尼指数定义为

基尼指数表示集合的不确定性，基尼指数表示经分割后集合的不确定性。基尼指数值越大,样本集合的不确定性也就越大，这一点与熵相似。

回归树的生成

输入:训练数据集 ,停止计算的条件;

输出: CART决策树。

根据训练数据集，从根结点开始，递归地对每个结点进行以下操作，构建二叉决策树:

设结点的训练数据集为 ,计算现有特征对该数据集的基尼指数。此时，对每一个特征 ,对其可能取的每个值 ,根据样本点对的测试为“是”或“否”将分割成和两部分，计算时的基尼指数。

在所有可能的特征以及它们所有可能的切分点中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中去。

对两个子结点递归地调用(1), (2),直至满足停止条件。

生成CART决策树。

CART 剪枝

输入: CART算法生成的决策树 ;

输出:最优决策树 .

设 , 。

设 .

自下而上地对各内部结点计算 , 以及

这里，表示以为根结点的子树，是对训练数据的预测误差，是的叶结点个数。

因为当时, 与有相同的损失函数值, 而的节点更少, 因此比更可取, 对进行剪枝.

对的内部结点进行剪枝，并对叶结点以多数表决法决定其类，得到树 .

设。

如果不是由根结点及两个叶结点构成的树，则回到步骤(2);否则令。

采用交叉验证法在子树序列中选取最优子树 .