CV:为 交叉验证的设置。用于估计最佳的λ的值。 默认为“resubstitution”,这个我没有研究,而迟陆困是使用了较为广泛的 K折交叉验证,一般 赋值 k =5或10,就是 5折交叉验证或10折交叉验证。
DFmax:返回拟合式中 非零系数的数量。
Lambda:这个就是Lasso活着岭回归活着elastic net中的参数λ的值,如果使用交叉验证,会使用交叉验证选择一个最优λ,如果默,则由系统根据计算公式默认赋值一个λ的最大值,关于最大值计算公式,在Lasso程序中有说明,或者你也可以指定λ的值。在确定该最大值后,还需要和Lambdaratio 和 Numlambda 确定λ的取值。
Lambdaratio λ的取值比例,它和Lambda构成λ的取值范码念围区间。
Numlambda λ的取值数量。Lambda确定λ的最大值,比如a,Lambdaratio确定λ最小值与最大值的比率,如Lambdaratio为0.01,那么λ的取值区间即为0.01*a~a,而Numlambda则确定改区间取多少个λ,从而最终确定了λ的取值。
Reltol 坐标下降法的阈值。坐标下降法是求解elastic net的常用方法,这是该方法的一个参数。
Standardize:布尔值。是否对Lasso进行缩放。一般设置为 true,即 进行缩放。
输出参数:
Intercept:截距,就是线性方程中的常数项
lambda:列出使用的λ的值,升序排列,而且后面的参数的顺序与这个λ对应
alpha:α值
MSE:均方误差
DF
Fitinfo中的字段:
在使用CV交叉验证后,可以输出本字段中的结果,内容和上面的差不多,先不描述了,大家想了解的话我再加。
lasso的意思如下:
LASSO是由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator。该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于轿罩某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。
学lasso数学的好处:
1、数学是一切再教育的基础,数学闭咐闹是培养逻辑思维重要渠道,不要只看眼前,往长的想,数学是所有学科的灵魂。
2、数学是一切科学的基础,一切重大科技进展无不以数学息息相关。没有了数简轿学就没有电脑、电视、航天飞机,就没有今天这么丰富多彩的生活。
3、数学是一种工具学科,是学习其他学科的基础,同时还是提高人的判断能力、分析能力、理解能力的学科。
4、数学不仅是一门科学,而且是一种普遍适用的技术。它是科学的大门和钥匙,学数学是令自己变得理性的一个很重要的措施,数学本身也有自身的乐趣。
使用数理统计模型从海量数据中有效挖掘信息越来越受到业界关注。在建立模型之初,为了尽量尘改败减小因缺少重要自变量而出现的模型偏差,通常会选择尽可能多的自变量。然而,建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是一种能够实现指标集合精简的估计方法。Tibshirani(1996)提出了Lasso(The Least Absolute Shrinkage and Selectionator operator)算法。这种算法通过构造一个惩罚函数获得一个精炼的模型;通过最终确定一些指标的系数为零,LASSO算法实现了指标集合精简的目的。这是一种处理具有复共线性数据的有偏估计。Lasso的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。R统计软件的Lars算法的软件包提供了Lasso算法。根据模型改进的需要,数据挖掘工作者可以借助于Lasso算法,利用AIC准歼漏则和BIC准则精炼派颤简化统计模型的变量集合,达到降维的目的。因此,Lasso算法是可以应用到数据挖掘中的实用算法。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)