1、首先看《概率论与数理统计》假设检验一章的内容,尤其是针对不同情况不同数目的随机变量如何构造不同的统计量
2、注意观察每种统计量的不同目的和效果,有的统计量针对正态分布,有的则针对多个随机变量,
3、参考《概率论与数理统计》书后关于统计量的表格强化记忆
1、回归是方法,残差在数理统计中是指实际观察值与估计值(拟合值)之间的差,平方和有很多个,不同的平方和的意思不一样,与样本量及模型中自变量的个数有关,样本量越大,相应变异就越大
2、df是自由度,是自由取值的变量个数
3、均方指的是一组数的平方和的平均值,在统计学中,表示离差平方和与自由度之比
4、f是f分布的统计量,用于检验该回归方程是否有意义
5、SIG=significance,意为“显著性”,后面的值就是统计出的P值,如果P值001<P<005,则为差异显著,如果P<001,则差异极显著
扩展资料:
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体MSb/MSw≈1
另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体
MS是均方,SS是离均差平方和,F就是F统计量,DF是自由度。
1、分析方法:
(1)对成组设计的多个样本均值比较,应采用完全随机设计的方差分析,即单因素方差分析。
(2)对随机区组设计的多个样本均值比较,应采用配伍组设计的方差分析,即两因素方差分析
2、方差分析的假定条件为:
(1)各处理条件下的样本是随机的。
(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。
(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。
(4)各处理条件下的样本方差相同,即具有齐效性。
扩展资料:
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
参考资料来源:百度百科-方差分析
解答如下:
F值表示在某一杀菌条件下的总的杀菌效果,通常是把不同温度下的杀菌时间折算成120℃的杀菌时间,即相当120℃的杀菌时间。应特别注意的是,它不是指工人实际 *** 作所花的时间,它是一个理论上折算过的时间。
P值是衡量控制组与实验组差异大小的指标,意思是P值小于05,表示两组存在显著差异,意思是P值小于01,表示两组的差异极其显著。
这个可以用SPSS统计,根据你的描述自变量应该是果蝇的性别(雌还是雄),因变量应该是寿命,自变量是名义变量,因变量是连续变量,所以用单因素方差分析就可以得出结果了。
另外,在统计解释时一般不看F值,只需要看P值就可以了,但是在写论文时还是要将F值写出来,并把P值放在后面用括号括起来。
R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。
也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。
这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)
Fisher的具体做法是:
假定某一参数的取值。
选择一个检验统计量(例如z 统计量或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的。
从研究总体中抽取一个随机样本计算检验统计量的值计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率。
如果P<001,说明是较强的判定结果,拒绝假定的参数取值。
如果001<P值<005,说明较弱的判定结果,拒绝假定的参数取值。
如果P值>005,说明结果更倾向于接受假定的参数取值。
可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。
但是,如果选中相同的,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。
因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。
冒泡~:最近在回顾一些以前学过的概率论和数理统计的知识 发现这三个抽样分布经常出现,在参数估计和假设检验也会运用到,所以做一下整理。首先,这三个抽样分布都是来自正态总体的常用的分布 可以根据情况应用于显著性检测
定义:
设 X1,X2,Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X1²+X2²++Xn²所服从的分布为自由度为 n 的χ2分布
自由度:所包含的独立变量的个数 (eg:χ2=X1²+X2² 自由度为2)
图和式子如下:
关于图像:
从分布图可以看出:图像分布在第一象限内,卡方值都是正值,呈右偏态,随着参数 n 的增大,分布趋近于正态分布;随着自由度n的增大,向正无穷方向延伸(这是因为均值n越来越大),分布曲线也越来越低(因为方差2n越来越大)。
更细致观察:
当n=1或者2时 :卡方分布先高后低的平滑曲线,检验统计量等于较小值的概率远远大于较大值的概率,即观察频数有可能接近期望频数。
当n大于2时 :卡方分布先低后高再低,其外形沿着正向扭曲
一些结论:
1χ2分布具有可加性:若χ12~χ2(n),χ22~χ2(m),且二者相互独立,则χ12+χ22~χ2(n+m)
2卡方分布的 期望E(χ2)=n,方差D(χ2)=2n。
应用 :(补充ing)
卡方分布指出观察频数与期望频数之间差异显著性,和其他假设一样,这取决于显著性水平。
1、显性水平α进行检验(常用的显著性水平005)
2、检测标准:卡方分布检验是单尾检验且是右尾,右尾被作为拒绝域。于是通过查看检验统计量是否位于右尾的拒绝域以内,来判定期望分布得出结果的可能性。
3、卡方概率表的使用:
卡方分布假设检验步骤 : 总是使用右尾
1、确定要进行检验的假设(H0)及其备择假设H1
2、求出期望E和自由度n
3、确定用于做决策的拒绝域(右尾)
4、计算检验统计量
5、查看检验统计量是否在拒绝域内
6、做出决策
ps:卡方分布检验其实就是假设检验的特殊形式。
定义:
t分布又叫student-t分布,常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。
(一个前提是:t分布的样本的总体必须符合正态分布。t分布一般用于小样本(样本量比较小)的情形。)
假设X服从标准正态分布即X~N(0,1),Y服从自由度n的卡方分布即Y~χ2(n),且X与Y是相互独立的,那么 Z=X/sqrt(Y/n) 的分布成为自由的为n的t分布,记为Z~t(n)
期望 E(T)=0,方差 D(T)=n/(n-2),n>2
图和式子如下:
图像的特点:
1图像整体以0为中心,左右对称的单峰分布;
2t分布是一簇曲线,可发现其形态变化与n(即其自由度)大小有关。
自由度n越小,t分布曲线越低平;自由度n越大,t分布曲线越接近标准正态分布曲线,当自由度无限大时,t分布就成了正态分布
应用:
t检验
1建立假设、确定检验水准α
H0:μ = μ0 (零假设null hypothesis)
H1:μ ≠ μ0(备择假设alternative hypothesis)
双侧检验,检验水准:α=005
2计算检验统计量
3查相应界值表,确定P值,下结论。
(ps:t检验适用于两个变量均数间的差异检验)
期望E(F)=n/(n-2),方差D(F)=2n^2(m+n-2)/m(n-2)^2(n-4)
图像:
F分布为非对称分布 有两个分位点
应用:方差的同质性检验
此检验
参考资料:
方差分析(ANOVA也称为变异数分析和F检验)
详细可参考:>
F分布定义为:设X、Y为两个独立的随机变量,X服从自由度为m的卡方分布,Y服从自由度为n的卡方分布,这2 个独立的卡方分布被各自的自由度除以后的比率这一统计量的分布即F=(x/m)/(y/n)服从自由度为(m,n)的F-分布。本题中,1和286都是自由度。SPSS里面忘了是哪个表格了,就是表格里面有P值,F值,T值的。
统计学中的DF、F、P分别代表的意思解释如下:一、DF代表自由度:
1、自由度指的是计算某一统计量时其取值不受限制的变量个数;
2、通常自由度为N与K的数值差,其中N为样本数量,而K为被限制的条件数或变量个数或计算某一统计量时用到其它独立统计量的个数,自由度通常用于抽样分布中。
二、F代表F统计量:
1、F统计量是指在零假设成立的情况下符合F分布的统计量;
2、零假设又称原假设,指进行统计检验时预先建立的假设的一种统计术语,零假设成立时有关统计量应服从已知的某种概率分布即F统计量。
三、P代表P值:
1、P值是用于判定、假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较;
2、P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率,P值越小则表明原假设情况的发生的概率越小,其结果则越显著。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)