实验目的

了解决策树分类算法的基本原理，并掌握Python语言中实现决策树算法的函数方法

实验原理

决策树(Decision Tree)是一种十分常用的分类算法，是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

本文结构：

简单地理解，就是根据一些 feature 进行分类，每个节点提一个问题，通过判断，将数据分为几类，再继续提问。这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上。

常用的几种决策树算法有ID3、C4.5、CART：

ID3: Iterative Dichotomiser 3

参考

下面这个数据集，可以同时被上面两颗树表示，结果是一样的，而我们更倾向于选择简单的树。

那么怎样做才能使得学习到的树是最简单的呢？

下面是 ID3（ Iterative Dichotomiser 3 ）的算法：

例如下面数据集，哪个是最好的 Attribute？

用熵Entropy来衡量：

E(S) 是数据集S的熵

i 指每个结果，即 No，Yes的概率

E越大意味着信息越混乱，我们的目标是要让E最小。

E在0-1之间，如果P＋的概率在0.5，此时E最大，这时候说明信息对我们没有明确的意义，对分类没有帮助。

但是我们不仅仅想要变量的E最小，还想要这棵树是 well organized。

所以用到 Gain：信息增益

意思是如果我后面要用这个变量的话，它的E会减少多少。

例如下面的数据集：

２.再选择Gain最大的特征是 outlook。

３.第一层选择出来后，各个分支再继续选择下一层，计算Gain最大的，例如分支 sunny 的下一层节点是 humidity。

接下来我们应用sklearn的数据集来具体实现一个决策树算法。

首先导入数据集：

训练模型，限制树的最大深度为4：

画图:

# 画图

结果为：