2021-11-28 决策树（一）

炫爱 • 2022-12-16 • 随笔 • 阅读 17

2021-11-28 决策树（一）第七章——决策树（一）

7.1 理解决策树
7.2 不确定性及信息增益

7.1 理解决策树

1、决策树的应用

决策树是一种基本的分类与回归的方法，它是几个经典集成模型（随机森林，提升树）的基础。

2、决策树的形态与决策边界

决策树由节点（跟节点、叶节点）和边组成。
从数据中得到决策树，需要学习到三样东西：树的形状、每一个决策的阈值θ、叶节点的值。

3、决策树的学习

在学习树的结构时会遇到NP-hard问题，一般般对于这类的问题是没有⼀个很好的⽅式来求出全局最优解的。而经典的近似算法——“贪心算法”（信息增益），每次只考虑局部最好的情况，所以⼀般带来的是相对最好的解决⽅案。

7.2 不确定性及信息增益

1、好的节点的特征

想要得到最优模型，节点分类效果要好。要如何判定分类效果好？通过信息熵来确定。

2、信息熵——表示不确定性

好的节点特征可以减少不确定性，不确定性用信息熵（entropy）表示。
信息熵的定义：H(X)=− ∑ Pi logPi ,i=1,2,3…
信息熵越⼤，说明不确定性越⼤，信息熵越⼩，说明不确定性是越⼩的。

3、信息增益——不确定性的减少

不确定性的减少也称作信息增益（information gain）
信息增益定义：IG (T, a) = H (T) - H (T | a)
公式解析：熵 - 条件熵。表示在⼀个条件下，信息不确定性减少的程度。

下一篇《决策树（二）》将会介绍决策树的过拟合和对于连续变量和回归的决策树。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5651124.html

不确定性信息增益节点决策树

打赏

微信扫一扫

支付宝扫一扫

炫爱一级用户组

使用python和lxml模块从html删除所有javascript标签和样式标签

上一篇 2022-12-16

数据集增广之多个图片贴到一张图上，以及生成相应的json文件

下一篇 2022-12-16

发表评论

登录后才能评论

评论列表（0条）