data=dat,lambda=seq(0,0.3,0.001))) # 和线伍核性回归类似,这个plot可以画出岭迹图,lambda=seq(0,0.3,0.001)设置范围和间隔,可以观察岭迹图键族,人工选择,腔亮掘但是这样主观性较强。
(2)select(lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,
data=dat,lambda=seq(0,0.3,0.001))) #利用select 函数找出最优岭参数lambda,会有三个值,任选一个即可。
lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,
data=dat,lambda=0.09)#通过(1)或(2)把选取的lmbda 参数写到岭回归函数中去,在这里lambda=0.09。
ridge regression可以用来处理下面两类问题:一是数据点少于变量个数;二是变量间存在共线性。
当变量间存在共线性的时候,最小二乘回归得到的扒友碰系数不稳定,方差很大。这是因为系数矩阵春谈X与它的转置矩阵相乘得到的矩阵不能求得其逆矩阵,而ridge regression通过引入参数lambda,使得该问题得到解决。在R语言中,MASS包中的函数lm.ridge()可以很方便的完成。它的输入矩阵X始终为n x p 维,不管是否包含常数项。
Usage
lm.ridge(formula, data, subset, na.action, lambda = 0, model = FALSE,
x = FALSE, y = FALSE, contrasts = NULL, ...)
>install.packages("MASS")
>library('MASS')
>longley
>names(longley)[1] <- "y"
>lm.ridge(y ~ ., longley)
GNP Unemployed Armed.Forces Population Year Employed
2946.85636017 0.26352725 0.03648291 0.01116105 -1.73702984 -1.41879853 0.23128785
>plot(lm.ridge(y ~ ., longley, lambda = seq(0,0.1,0.001)))
>select(lm.ridge(y ~ ., longley, lambda = seq(0,0.1,0.0001)))
modified HKB estimator is 0.006836982
modified L-W estimator is 0.05267247
smallest value of GCV 告段at 0.0057
用matlab做岭回归:
x1=[]x2=[]x3=[]。
x=[ones(length(x1)x1x2x3]。
[b,bint,r,rint,stats]=regress(y,x)。a=b(1),c=b(3),c=b(4),b=(2)。
输出向量b,bint为回归系数估计值和它们的置信区间,r,rint为残差及其置信区间,stats是用于检验回归模型的统计量,有三个数值,第亩敬一个是R2,其中R是相关系数,第二个是F统计量值,第三个是与统计量F对应的概率P,当P<α时拒绝H0,回归银埋模型成立。
计算公式:
置信区间的计算公式取决于所用到的统计量。置信区间是在预先确定好的显著性水平下计算出来的,显著性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。
置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度则是0.95或95%,后一种表示方式更为常用。置信锋耐蚂区间的常用计算方法如下:Pr(c1<=μ<=c2)=1-α。
其中:α是显著性水平(例:0.05或0.10);Pr表示概率,是单词probability的缩写;100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);表达方式:interval(c1,c2) - 置信区间。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)