- 机器学习基础
- 一、基本问题
- 1. 分类[监督学习:有标签]
- 2. 回归[监督学习:有标签]
- 3. 聚类[无监督学习:无标签]
- 4. 降维[无监督学习:无标签]
- 5. 强化学习
- 二、分类模型评估指标
- 1. 二分类问题
- 二分类混淆矩阵
- 算例
- 2. 多分类问题
概念:把一个输入映射成离散的类别。(输入一组泰坦尼克数据可以预测出生还是死亡)
算法:KNN、支持向量机、决策树、朴素贝叶斯、逻辑回归、深度学习、神经网络、图像分类
评估指标:交叉熵、混淆矩阵、ROC、AUC、F1Score
概念:预测一个连续的值。(输入一个房子的地段可以预测出房价,房价是连续的数据)
算法:支持向量机、决策树、线性回归、岭回归、神经网络
概念:把没有标签的数据自组织的聚成一簇一簇。
算法:K-means、和密度估计、高斯混合模型
概念:把高维数据压缩成低级维度,便于可视化
5. 强化学习概念:训练一个智能体,能够感受到环境,接收到环境的奖励或者惩罚,根据奖惩采取下一步的动作,下一个动作又会导致新的奖励或环境的变化。[感受世界与世界交互]
监督学习 | 非监督学习 | |
---|---|---|
数值离散 | 分类 | 聚类 |
数值连续 | 回归 | 降维 |
分类问题,监督学习
如果标签是离散的,则为分类;(猫狗识别、手写数字识别等)
如果标签是连续的,则为回归。(股票、房价、用电量 预测)
训练分类模型
将数据集划分为训练集和测试集
训练集 (特征 标签)
在训练时将训练集的特征和标签输入模型,模型根据每个数据的特征进行标签预测,再和真实的标签进行比较。
1. 二分类问题标签只分为两类:是/否
评估指标
二分类混淆矩阵真实情况/预测结果 | 正例 | 反例 |
---|---|---|
正例 | TP(真正例)True Positive | FN(假反例)False Negative |
反例 | FP(假正例)False Positive | TN(真反例)True Negative |
True/False:表示被预测正确/错误
Positive/Negative:表示正例/反例
横轴是模型预测的结果,纵轴是真实标签
真实\预测 | 预测为脑肿瘤 | 预测为健康 |
---|---|---|
脑肿瘤 | True Positive | False Negative |
健康 | False Positive | True Negative |
n=100 | 预测为脑肿瘤 | 预测为健康 |
---|---|---|
脑肿瘤 | 45 | 5 |
健康 | 15 | 35 |
TP+FN:真实脑肿瘤数据个数的总和
FP+TN:真实健康数据个数的总和
TP+TN:所有被正确分类的数据个数总和
评估指标(用 # 表示个数)
A
c
c
u
a
r
c
y
(
准
确
率
)
=
正
确
分
类
所
有
数
据
=
T
P
+
T
N
T
P
+
T
N
+
F
P
+
F
N
Accuarcy(准确率) = \frac{正确分类}{所有数据} = \frac{TP+TN}{TP+TN+FP+FN}
Accuarcy(准确率)=所有数据正确分类=TP+TN+FP+FNTP+TN
P r e c i s i o n ( 查 准 率 ) = T P 预 测 为 脑 肿 瘤 = T P T P + F N Precision(查准率)= \frac{TP}{预测为脑肿瘤} = \frac{TP}{TP+FN} Precision(查准率)=预测为脑肿瘤TP=TP+FNTP
预测为脑肿瘤的数据中有多少是真的脑肿瘤
R
e
c
a
l
l
(
查
全
率
、
敏
感
性
、
召
回
率
)
=
T
P
真
实
为
脑
肿
瘤
=
T
P
T
P
+
F
N
Recall(查全率、敏感性、召回率)=\frac{TP}{真实为脑肿瘤}=\frac{TP}{TP+FN}
Recall(查全率、敏感性、召回率)=真实为脑肿瘤TP=TP+FNTP
真实为脑肿瘤的数据中有多少被预测出来了
F
1
−
S
c
o
r
e
=
2
1
p
r
e
c
i
s
s
i
o
n
+
1
r
e
c
a
l
l
=
2
×
p
r
e
c
i
s
i
o
n
+
r
e
c
a
l
l
p
r
e
c
i
s
s
i
o
n
+
r
e
c
a
l
l
F1-Score = \frac{2}{\frac{1}{precission}+\frac{1}{recall}}=\frac{2\times{precision}+recall}{{precission}+{recall}}
F1−Score=precission1+recall12=precission+recall2×precision+recall
F1-Score是Precision和Recall的调和平均数,综合反映分类器的Precision和Recall
S
p
e
c
i
f
i
c
t
y
(
特
异
性
)
=
T
N
真
实
为
健
康
=
T
N
F
P
+
T
N
Specificty(特异性)=\frac{TN}{真实为健康}=\frac{TN}{FP+TN}
Specificty(特异性)=真实为健康TN=FP+TNTN
和二分类问题评估指标一致,不同点是多分类问题可以求出每一个类别的Precision和Recall,F1-Score是每一类F1-score的平均值。
参考材料
1. B站“同济子豪兄”机器学习基础
2. 多分类ROC曲线
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)