如何衡量多元线性回归模型优劣_安全

优点： 1、回归分析法在分析多因素模型时，更加简单和方便； 2、运用回归模型，只要采用的模型和数据相同，通过标准的统计方法可以计算出唯一的结果，但在图和表的形式中，数据之间关系的解释往往因人而异，不同分析者画出的拟合曲线很可能也是。

一、前言

作为一个B端产品的产品经理，我们会面临很多问题：复杂的产品需求、纠缠的技术逻辑、难以决策的设计方案、难以计量的产品迭代效果。而对于作为支撑平台的B端产品经理而言，提高效率和体验又常常作为评估价值的主要方向，故因此我们需要一套科学的体验度量体系来指导我们前进的方向：产品目标的确立、需求价值的评估、迭代效果的量化。

那么何为产品的使用体验：即用户在产品使用场景中完成期望目标时所产生的体验。这是用户和产品直接接触的部分，也是最有感知的部分。无度量，无管理，我们如何管理体验？现代管理学之父，彼得·德鲁克说：「如果你不能很好地度量它，也就无法有效地管理它。」If you can’t measure it, you can’t manage it。Druker

但是B端产品相对C端产品而言产品体验更加难以度量，因为C端产品有明确的业务数据指标作为向导，但是B端产品由于功能流程冗长、业务交叉复杂、包含产品价格、安全性、稳定性等综合因素，用户体验的要素被掩盖在这些复杂的「变量」中难以剥离。而控制和分离变量，是一个科学的度量系统最基本的要求，故做了如下调研，方便大家参考借鉴！

二、谷歌HEART -GSM 模型

1、简介

Kerry Rodden 作为谷歌资深用户体验研究员和数据分析师，在大量度量用户体验的探索与实践中总结出了HEART用户体验度量模型，帮助团队高效选择正确的数据指标。该模型在谷歌内部广泛使用，并通过论文、博客等渠道传播，使其他公司、团队也能够在使用的过程中受益。

2、 HEART 模型五个维度：

HEART模型主要包括五个维度：愉悦度、参与度、接受度、留存率与任务完成度

3 、 GSM- 目标、信号、指标拆解三步法

为了将这个抽象的度量标准应用于实践，Google又提出以“目标（Goal）——信号（Signal）——指标（Metirc）”的拆解流程来定义HEART指标数据。让使用该模型的产品团队，可以根据用户体验目标和业务目标，完成数据指标的选择，最终保证指标是服务于业务目标和用户体验的。

4、 *** 作指南

5、优劣势分析

6、总结

HEART模型的C端倾向较明显，并不完全适用于B端产品的体验度量（需要在此基础上改良）。

三、阿里云UES模型

1、简介

UES（User Experience System）是阿里云设计中心通过多年设计实践中沉淀下来的云产品使用体验度量系统，它不仅是一套方法论，更是一套可运行的体系。

2、五大度量维度（有主观，有客观，有定性，有定量）

UES（User Experiences System）是基于阿里云易用性量表扩展而成的度量体系，包含易用性、一致性、满意度、任务效率和页面性能 5 个指标维度。

易用性 - Ease of use

易⽤性是产品使用质量的核心维度，它反应产品对⽤户而言是否易于学习和使用，包含易学性、易 *** 作性和清晰性3个维度。易⽤性的提升可以促进 *** 作效率和任务完成率的提升、降低学习成本、提升⽤户体验和满意度。

一致性 - Consistency

一致性指多款产品间通用范式部分的一致程度，分为整体样式、通用框架和常用场景及组件等维度。对于⽤户⽽⾔，体验⼀致性的提⾼可以降低⽤户的 *** 作时⻓及错误率，降低学习成本，提升⽤户的满意度；对于产品设计及开发者⽽⾔，保持体验⼀致性可以提升开发效能，产品模块的可集成性、稳定性和可延续性更⾼。

满意度 - Happiness

满意度反映着用户对产品或服务的期望被满足的程度，这个指标一定程度上会反映用户再次使用和对产品进行推荐的程度。

任务效率 - Task Success

任务效率包含任务完成率和任务完成时间，云产品的任务链路相对复杂，针对有明确任务或有固定使用流程的产品，通过比对用户路径和产品设计的理想路径之间的差异，能够帮助我们发现产品流程设计上的问题。

性能 - Performance

监控性能的指标有很多，其中最影响用户感知的指标是首屏渲染时间（FMP），指用户从发出请求到看到控制台主要内容的时间。其次，还包括页面请求响应时间、API 请求响应时间等指标。

3、指标拆解方法

①、明确业务目标和体验目标

②、确定度量维度

③、拆解数据指标

④、完善度量方法

4、优劣势分析

优势：度量维度多、全面、包含主观、客观、有定性，有定量

劣势：实施成本高、开发成本高、分析成本高

5、总结

UES确实是比较科学全面、适合技术类B端产品的体验度量体系。但其庞大的体系、复杂的度量手段和工具可能都会使得我们在日常业务中无法轻量化地实施起来。

四、蚂蚁金服 TECH 模型

1、度量模型诞生背景

企业级产品 / 企业级中后台这些概念在互联网经常被提到，一般提及这个词儿，我们往往能够想到以下这些产品：财务审批系统、CRM、ERP、算法专业人员训练模型的平台等等。在我们的印象中，这些平台往往具有以下特征：

流程冗长， *** 作繁杂，一个平台往往是若干复杂功能的合集；

相对于 C 端产品动辄百、千万级别的用户量，企业级产品往往用户量级不大；

开发流程简单，往往是产品经理画个 demo 就上线了；

页面设计难看，用户体验往往比较糟糕；

现阶段企业级产品也在慢慢演变，对于体验的追求也比前几年更为饥渴。他们的体验需求可以明显看到两个阶段的演进：

效能需求阶段：这个阶段的企业级中后台页面设计混乱，业务对于体验的需求显性表现在美化页面设计，提高设计效率和一致性。

体验需求阶段：这个阶段产品开始关注使用过程中的问题，慢慢转向注重于用户需求和体验设计。

就蚂蚁金服的企业级产品来讲，Ant Design 已经帮助解决了绝大多数第一阶段的需求。目前基本都处于第二阶段。体验度量实践也正是从这里开始。

2、实践过程

以HEART度量模型为基础，蚂蚁金服根据企业级产品现状和特征做了部分的补充和修正，修改点如下：

将 NPS 改成用户主观满意度：NPS 对 C 类产品是一个很有效的指标，对于企业级中后台来说，往往由于企业产品的封闭内环、用户基数等众多原因，可能还是满意度来的更加有效；

不强调留存率：企业级产品用户往往没有太多的可选余地，因此留存率未必适合用来衡量用户对于产品的喜好；

参与度和接受度指标合并：对于企业级中后台系统，用户使用的目标性更强，TA 就是来完成某个任务（或者说 TA 就是来完成工作的）因此活跃度基本和产品能否满足用户的需求强相关；

3、最终体验度量模型

基于 HEART 模型，结合企业级产品体验度量实践修正后的度量体系如下：

核心任务体验（Task Success）：主要聚焦于产品核心任务流程中的体验问题。可以采用定性、定量，或者两者结合的方式，最终来反映体验的细节问题。

参与度（Engagement）：产品能够提供的需求和用户预想之间距离有多远？

清晰度（Clarity）：引导、帮助清晰，用户是否能够顺利完成所想做的事情？

满意度（Happiness）：用户对产品及其他方面的满意度，比如视觉外观等。

4、优劣势分析

优势：多维度、多指标、主客观结合

劣势：客观的用户行为数据指标较少

五、总结

那么如何去搭建符合自身平台业务的体验度量体系呢？我们发现不同类型的产品差异较大。如办公协同类产品与业务平台类工具的体验目标就很难进行统一化的抽象处理。所以，「构建适合具体类B端产品的体验度量模型」显得更加对症下药。他山之石，可以攻玉。从诸多体验度量模型中取经总结（各大其他平台的度量模型都是基于HEART模型改良的），不难发现“先梳理产品目标+参考HEART+阿里云指标拆解方法”的思考方向可以帮助我们构建适合具体B端产品体验的度量模型。

理论模型的设定。首先根据经济理论分析所研究的经济现象、找出经济现象间的因果关系及相互间的联系，把问题作为因变量或被解释变量、影响问题的主要因素作为自变量或解释变量、非主要因素归入随机误差项。其次，按照它们之间的行为关系，选择适当的数学形式描述这些变量之间的关系，一般用一组数学上彼此独立、互不矛盾、完整有解的方程组表示。

要有科学的理论依据，模型要选择适当的数学形式。可以直接采用经济学已有的函数形式；可以根据实践经验或已有研究经验设定；也可以根据样本观察数据反映出来的变量之间的关系设定；对于其他事先无法确定模型函数形式的情况，可采用各种可能的函数形式进行模拟，选择模拟结果最好的函数形式。

软件复杂性有哪几类？软件复杂性度量模型应遵循哪些基本原则？
解答: KMagel从六个方面描述软件复杂性： ① 理解程序的难度；
② 改错及维护程序的难度； ③ 向他人解释程序的难度； ④ 按指定方法修改程序的难度； ⑤ 根据设计文档编写程序的工作量； ⑥ 执行程序时需要资源的程度。
软件复杂性度量模型应遵循的基本原则：
⑴ 软件复杂性与程序大小的关系不是线性的； ⑵ 控制结构复杂的程序较复杂； ⑶ 数据结构复杂的程序较复杂； ⑷ 转向语句使用不当的程序较复杂；
⑸ 循环结构比选择结构复杂，选择结构又比顺序结构复杂；
⑹ 语句、数据、子程序和模块在程序中的次序对软件复杂性都有影响； ⑺ 全程变量、非局部变量较多时程序较复杂； ⑻ 参数按地址传递比按值传递更复杂； ⑼ 函数副作用比显式参数传递更难以琢磨；
⑽ 具有不同作用的变量共用一个名字时较难理解； ⑾ 模块间或过程间联系密切的程序较复杂； ⑿ 嵌套深度越深程序越复杂。

上一章，简略地介绍了机器学习，以及 数据集、数据集、测试集、假设空间、版本空间等等的相关概念 。这一章就开始讲模型评估与选择了，因为书上是以“学习器”来称呼模型的，所以下面我也用学习器来进行说明总结。

什么是经验误差？
在分类样本时会出现分类错误，我们把分类错误的样本数占样本总数的比例称为 “错误率” ，精度即正确率，自然是1-错误率了。学习器的 实际预测输出 与样本 实际输出 之间的差异就称为 “误差” ，于 训练集 就是 “经验误差” ，于 新样本 就是 “泛化误差” 。

什么是过拟合？
我们希望学习器能在新样本的预测中有更好的效果，即泛化性能最大化。但 在学习过程中 ，往往会把训练集中的样本学得过多，使得泛化降低，就是说 学到了 训练样本个体的特点而不是总体样本的特点，或者说学了这个训练集的特殊点， 相对于所有潜在的样本来说的特点 。这就是 “过拟合” ，那么与过拟合相对的就是 “欠拟合” ，反而思之，便是学得不到位，样本的一般性质都掌握不了！

因为过拟合无法避免，所以我们想要去减少它的风险。 其实就是 对模型的泛化误差进行评估，然后选择泛化误差最小那个。
对多种学习算法、参数配置进行选择即模型选择：
一个学习算法→不同参数配置→不同模型

在实验测试中，只有数据集可用，为了对学习器的泛化误差进行评估，只能 从数据集（验证集）中分离出训练集与测试集 ，测试集用于测试学习器对新样本的判别能力， 将测试集上的“测试误差”作为泛化误差的近似 。故 测试集要尽可能与训练集互斥 。

直接将数据集划分两个互斥的集合，一个作训练集，一个作测试集。训练集、测试集的划分要尽可能保持数据分布一致性。即 保持训练集和测试集中样本类别比例相差不大，否则会产生偏差 。一般确定训练集与测试集的样本比例之后，对于数据集的样本划分的方法也有很多， 不同划分方法造成模型评估结果也不同，所以就要进行多次留出法，随机划分重复评估再取平均值作为评估结果 。对于留出法，其划分样本于训练集与测试集的比例要适当，若是训练集含有大多数样本，那么其模型结果便与数据集训练出来的模型接近，但是由于测试集样本过少，其评估结果就不那么准确，反之也是一样的道理。 故常常采取2/3~4/5的样本作为训练集，其余作为测试集。

将数据集划分为k个大小相似的互斥子集，即互不包含。 每个子集尽可能保持数据分布的一致性，即通过 分层采样 得到。 这k个子集又分出k-1个作为训练集，剩下一个作为测试集，可以分k次，进行k次训练和测试 ，最终也是求其 结果的均值 。同留出法， 交叉验证法要随机使用不同的划分重复多次 ，最终结果是多次k折交叉验证结果的均值。比如“10次10折交叉验证”就会有100次训练，有100个训练结果（模型）。
交叉验证法有一个特例，其名为 留一法 ，就是数据集 有多少个样本，就划分成多少个子集 ，即每个子集一个样本，于是随机划分只会产生一种结果， 所以这种方法被实际评估的模型与期望评估的用数据集训练出来的模型很相似。 其缺点是当数据集很大的时候，用它就需要庞大的计算量（还未考虑调参）。

上面两种方法是需要将数据集划分的，这样自然会让 用训练集训练出的模型 与 用数据集训练出来的模型 有一定的 估计偏差 。如此，自助法以自助采样法为基础，简单地讲就是重复随机抽样， 从数据集D中进行重复随机抽样m次，便会得到一个含有m个样本的数据集D 1 ，这就是自助采样的结果。
对于 样本在m次不被采集到 的概率：

这说明了，D中大概有368%的样本没有出现在D 1 中。于是我们可以 把D 1 作为训练集 ，把那约 368%的样本作为测试集 。其优点是对于 数据集较小、难以有效划分训练 时很有用，其缺点就是改变了初始数据集的划分，这可能会引入估计偏差。

什么是调参？
上面粗略地提到过参数的调整，我们 在进行模型的评估和选择时，不仅要对学习算法进行选择，还要对算法参数进行设定 ，这便是调参。
梳理一下：

参阅自: 机器学习为什么需要训练，训练出来的模型具体又是什么？
回到调参，对于每种参数都训练出模型是不现实的，我们应 对每个参数选定一个范围和步长 ，选出的参数即为 候选参数值（一般10个以内） ，最终从这些候选参数值中产生 选定值 。这是一种折中的结果，是为了使学习过程成为可能。
然鹅，尽管我们得到了这个模型，但这不是最终提交给用户的模型，我们 需要对数据集重新训练 ，使用全部样本以训练出的模型，才是最终模型。

习得模型在实际遇到的数据称为测试数据；模型评估与选择中用于评估测试的数据称为"验证集"。 例如：在研究对比不同算法的泛化性能时，用测试集上的判别效果来评估模型在实际使用中的泛化性能，而把训练数据分为训练集和验证集，基于验证集上的性能来进行模型选择和调参。

是衡量模型泛化能力的评价标准。 其反映了 任务需求 。对于给定的样例集D={(x 1 ,y 1 ),(x 2 ,y 2 ),,(x m ,y m )}，其中的y是x的真实标记，现在要评估学习器f的性能，于是把f的结果与y进行比较。
回归任务——性能度量——“均方误差” ：

一般的，对于数据分布和概率密度函数p(·)，均方误差可以表示为：

下面主要介绍 分类任务中常用的性能度量 。

上面这两种就是分类任务中常用的性能度量啦！对于样例集D，分类错误率定义如下：

注：Ⅱ(·)是指示函数。若·( 即对括号内进行逻辑判断 )为真则取值为 1 ，假则取 0
精度定义：

一般的：

对于真实类别与学习器预测类别的异同，我们可以分为真正例、假反例、假正例、真反例，分别称为TP、FN、FP、TN（T=True，F=False，P=Positive，N=Negative）。这里的 真假是针对学习器预测结果 来说的。
于是查准率P与查全率R定义如下：

这 两个性能度量是矛盾的，呈负相关 。
我们常常根据学习器的预测结果对样例进行排序， 把“最可能”是正例的放在前面 。按这个顺序，逐个把样本作为正例进行预测，每次都可以计算出当前的查准率与查全率，然后以查准率为纵轴，查全率为横轴，作P-R图如西瓜书p 31 。
若一个学习器的P-R图完全包含了另一个，则说明前者性能更优于后者。
但往往会出现不完全包含， 出现交叉的情况 ，那么我们 一般用F1 来对比衡量。
在说F1度量之前，先说一下平衡点。
平衡点（BEF） 是综合考虑查准率与查全率的性能度量。是 “查准率 = 查全率” 时的取值。是一种简单的度量。
F1度量：

一般形式：

其中 >0 度量了查全率对查准率的 相对重要性 。 >1时，查全率有更大的影响， <1时，查准率有更大的影响。

上面提及到的性能度量的 平均值 （在各 混淆矩阵 (其实就是上面真假正反例的矩阵)上分别计算出查准率与查全率，再计算平均值）称为 “宏查准率”（macro—P）、“宏查全率”（macro—R）以及"宏F1"（macro—F1） ，前两个均值就是算术平均的计算方式，相加除以n，最后一个则是根据前两个计算得来，参考上面F1的定义。
上面是一种做法，也可以把混淆矩阵的真假正反例进行平均，则有、、、，于是可求出 “微查准率”（micro—P）、“微查全率”、“微F1”。 然后你懂的，参考上面写的相关公式，代入即可。

ROC全称是“受试者工作特征曲线”，根据预测结果对样例进行排序，然后按顺序逐个把样本作为正例进行预测，以每次计算出的“真正例率”（TPR）作为纵轴，“假正例率”（FPR）作为横轴。两者定义如下：

ROC曲线下的面积即为AUC ，是用来比较当两个学习器的ROC曲线相交不完全包含，要进行性能比较时，则使用AUC。 AUC的估算 ：

其与排序误差有紧密联系，于是给定个反例，个正例，令和分别表示反例、正例的集合。则 排序损失 定义为：

对应的是 ROC曲线之上的面积 ，由此有：

为何引入代价？
因为你这样做是要付出代价的！即为所造成结果的超额处理。引入代价是为了 衡量不同类型错误所造成不同的损失 ，可为错误赋予 “非均等代价”
代价矩阵 ：

其中表示将第i类样本预测为第j类样本的代价。 例如上矩阵中，损失程度相差越大，与值的差别越大，比较一般是以 代价比值 而非绝对值。（即倍数关系）

从前面提到的性能度量， 均是在假设均等代价前提下 进行计算的，如今引入了非均等代价，便要对其考虑在内。
于是将上面代价矩阵中的第0类作正例，第1类作反例，而与分别表示正例子集和反例子集，则以错误率为例子，“代价敏感”错误率为：

除此之外，若令中的不限取0和1，则可定义出多分类任务的代价敏感性能度量。
那么在非均等代价下，ROC曲线无法直接反映学习器的期望总代价，于是我们引入“代价曲线”，其横轴是取值为[0,1]的正例概率代价：

其中p是样例为正例的概率，纵轴是取值为[0,1]的归一化代价：

其中FNR=1-TRP。ROC曲线上的每一点对应代价平面上的一条线段，若ROC曲线上一点为（FPR，TPR）则对应一条从（0，FPR）到（1，FNR）的线段，于是 所有线段的下界围成的面积即为在所有条件下学习器的期望总体代价。

有了实验评估方法和性能度量之后，便是对学习器的泛化性能进行比较。此时为了对学习器进行适当的比较，统计假设检验为我们进行学习器性能比较提供了重要依据。该节默认以错误率为性能度量。

1 二项检验

2 t检验

1、“序号”一般是用来定义等级差别的，例如对某个餐厅满意度，就可以用序号来表示，1、2和3分别代表满意，一般和不满意。

2、“名义”一般是用来代表某物的一个属性，没有任何比较排序的意义，只是说这个物有这个属性而已，例如人有男女之分，还有你说的“工号”也只代表工人的一个属性而已。

3、“度量”则表示可以不仅可以进行排序而且还能对结果进行加减的一种属性，例如“职工收入”，“体重”等等。

SPSS中常用专有名词解释：

1、变量视图：变量视图用于管理变量的属性，包括变量名称，类型，标签，缺失值，度量标准等属性。

2、数据视图：数据视图用于管理录入的数据，一行表示一条记录在不同变量下的值，一列表示相同的变量在不同记录中的值。

3、变量类型：SPSS主要包括 3 种类型，分别是：数值型，字符型和日期型，

度量标准：在SPSS 中，按照对事物描述的精确程度，可以将变量分为 3 种度量标准，度量（Scale），名义（Nominal），序号（Ordinal），因为不同的变量度量标准适用不同的统计模型，因此正确定义一个变量的度量标准很重要。

4、度量（Scale）变量：通常也称为连续变量，表示变量的值通常是连续的，无界限的，如员工收入，企业销售额等。“度量”则表示可以不仅可以进行排序而且还能对结果进行加减的一种属性，例如“职工收入”，“体重”等等。

5、名义（Nominal）变量：通常也称为无序分类变量，表示变量的值是离散的，相对有限个数的，通常变量值的个数不超过 10 个，但值之间没有顺序关系的，如性别。“名义”一般是用来代表某物的一个属性，没有任何比较排序的意义，只是说这个物有这个属性而已，例如人有男女之分，还有你说的“工号”也只代表工人的一个属性而已。

6、序号（Ordinal）变量：通常也称为有序分类变量，表示变量的值是离散的，相对有限个数的，但值之间是有顺序关系的，如教育水平取值有：1 — 8 年，2 — 10 年，3 — 15 年，这些值之间存在顺序大小关系。“序号”一般是用来定义等级差别的，例如对某个餐厅满意度，就可以用序号来表示，1、2和3分别代表满意，一般和不满意。

参考资料

CDA数据分析网：>

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12951972.html

如何衡量多元线性回归模型优劣

发表评论

评论列表（0条）