决策树之C4.5算法_软件运维

数据总结：属性数据4个 = {天气，温度缺缓，湿度，风伏闭模速}

类别2个 = {进行，取消}

定义：所有样本中各种类别出现的不确定性之和，根据熵的概念，熵越大，不确定性就越大。需要研究清楚信息就越多。

2、每个属性的信息熵

每个属性信息熵相当于一种条件熵。表示在某种属性的条件下，各种类别出现的不确定性之和。属性的信息熵越大，该属性拥有的样本类型越不“纯”。

信息增益率 = 信息增益 / 内存信息，导致属性的重要性随内在信息的增大而减小（换句话说：若是某个属性本身的不确定性很大，那就不倾向选取它）。是对单纯使用信息增益有所补偿

信息熵 ：体现的是在整个样本数据集中，结果类型或条件属性在对应的结果集中单一事件出现不确定性的概率；而这个不确定性的结果和对应的结果类型或条件属性存在log的联系；信息的不确定性越大，熵的值也就越大针对的是一元模型的概率

-(同一结果类型记录的个数) / (整个样本数态告据结果类型记录的总数) * log2((同一结果类型记录的个数) / (整个样本数据结果类型记录的总数))

条件熵 ：通过多元模型的方式来减少一元模型中不确定性，或者说降低对应的熵，越低意味着信息的不确定性就越小。

条件熵 = -某个条件属性某个类型/总结果记录数 * 该条件属性某个类型的不同细分类的信息熵之和

该条件属性某个类型的不同细分类的信息熵 = 同个属性不同内容类型相对结果类型的信息熵的之和

决策树法的几个关键步骤是：

1、画出决策树，画决策树的过程也就是对未来可能发生的各种事件进行周密思考、预测的过程，把这些情况用树状图表示出来．先画决策点，再找方案分枝和方案点．最后再画出概率分枝。

2、由专家估计法或用试验数据推算出概率值．并把概率写在概率分枝的位置上。

3、计算益损期望值，从树梢开始，由右向左的顺序进行．用期望值法计算．若决策目标是盈利时，比较各分枝，取期望值最大的分枝，其他分枝进行修剪。

扩展资料

决策树的优启老点

1、决策树易于理解和实现. 人们在通过解释后都有能力去理解决策树所表达的意义。

2、对于决策树，数据的准备往往是简单或者是不必要的 . 其他的租枣技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。

3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。

4、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

5、对缺失值不敏感

6、可以处理不相关特征数据

7、效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

决策树的缺点

1、对连续性的字段比较难预测。

2、对有时间顺序的数据，需要很多预处理的工作。

3、当类别太多时，错误可能就会增加的比较快。

4、一般的算悄型升法分类的时候，只是根据一个字段来分类。

5、在处理特征关联性比较强的数据时表现得不是太好

欢迎分享，转载请注明来源：内存溢出

决策树之C4.5算法