2021-11-28 决策树(一)

2021-11-28 决策树(一),第1张

2021-11-28 决策树(一) 第七章——决策树(一)

7.1 理解决策树
7.2 不确定性信息增益

7.1 理解决策树

1、决策树的应用

  • 决策树是一种基本的分类与回归的方法,它是几个经典集成模型(随机森林,提升树)的基础。

2、决策树的形态与决策边界

  • 决策树由节点(跟节点、叶节点)和边组成。
  • 从数据中得到决策树,需要学习到三样东西:树的形状、每一个决策的阈值θ、叶节点的值。

3、决策树的学习

  • 在学习树的结构时会遇到NP-hard问题,一般般对于这类的问题是没有⼀个很好的⽅式来求出全局最优解的。而经典的近似算法——“贪心算法”(信息增益),每次只考虑局部最好的情况,所以⼀般带来的是相对最好的解决⽅案。
7.2 不确定性及信息增益

1、好的节点的特征

  • 想要得到最优模型,节点分类效果要好。要如何判定分类效果好?通过信息熵来确定。

2、信息熵——表示不确定性

  • 好的节点特征可以减少不确定性,不确定性用信息熵(entropy)表示。
  • 信息熵的定义:H(X)=− ∑ Pi logPi ,i=1,2,3…
  • 信息熵越⼤,说明不确定性越⼤,信息熵越⼩,说明不确定性是越⼩的。

3、信息增益——不确定性的减少

  • 不确定性的减少也称作信息增益(information gain)
  • 信息增益定义:IG (T, a) = H (T) - H (T | a)
    公式解析:熵 - 条件熵。表示在⼀个条件下,信息不确定性减少的程度。

下一篇《决策树(二)》将会介绍决策树的过拟合和对于连续变量和回归的决策树。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5651124.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存