主要步骤:
将数据存成csv格式,逗号分隔
在R中,读取数据,然后将数据转成矩阵形式
加载lars包,先安装
调用lars函数
确定Cp值最小的步数
确定筛选出的变量,并计算回归系数
具体代码如下:
需要注意的地方:
1、数据读取的方弯搜裤法,这里用的file.choose( ),这样做的埋简好处是,会d出窗口让你选择你要加载进来的文件,免去了输入路径的苦恼。
2、数据要转为矩阵形式
3、(la) 可以看到R方,这里为0.66,略低
4、图如何看? summary的结果里,第1步是Cp最小的,在图里,看到第1步与横轴0.0的交界处,只有变量1是非0的。所以筛漏斗选出的是nongyangungun
Ps: R语言只学习了数据输入,及一些简单的处理,图形可视化部分尚未学习,等论文写完了,再把这部分认真学习一下~~在这里立个flag
L1正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就迟前慧是某些参数等于悔和0;
L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小
L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则码答化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归。下图是Python中Lasso回归的损失函数,式中加号后面一项α||w||1即为L1正则化项。
Linear least squares,Lasso,ridge regression三者是有本质区别的。一、最小二乘法(Linear least squares)。
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与雀租实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
套索工具源于Photoshop,在Photoshop CS6中,需要自由绘制出形状不规则的选区时,可以使用套索工具。选择使用套索工具后,在图像上拖拽陵宽鼠标指针绘制选区边界,松开鼠标左键时,选区将会进行自动闭合。
套索工具算法,通过构造一个惩罚函数获得一个精炼的模型;通过最终确定一些指标的系数为零,套索工具算法实现了指标集合精简的目的。这是一种处理具有复共线性数据的有偏估计。套索工具的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。R统计的Lars算法的包提供了套索工具算法。根据模型改进的需要,数据挖掘工作者可以借助于套索工具算法,利用AIC准则和BIC准则精炼简化统计模型的变量集合,达到降维的目的。因此,套索工具算法是可以应用到数据挖掘中的实用算法。
三、岭回归算法(ridge regression)。
在回归分析中,用一种方法改进回归系数的最小二乘估计后所得的回归称为岭回归算法。
在多元回归方程中,用最小二乘估计求得的回归系数值尽管是其真值β=(β0,β1,···βp)1的无偏估计,但若将与β分别看成p+1维空间中两个点的话,它们之间的平均距离E(—β)1(-β)(称为均方差)仍可能很大,为减小此均方差,用(k)=(X′X+KI)-1X′Y去代替2,称(K)为β的岭回归估计。其中X为各变量的观测值所构成的一个n×(p+1)阶矩阵,Y是随机变量的观测值组成的n维向量,I为p+1阶单位阵,K是与未顷汪兆知参数有关的参数,选择它使E{[(K)-β]1[(K)-β]}达到最小。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)