什么是t分布,统计显著性, t检验

什么是t分布,统计显著性, t检验,第1张

T值就是这些统计检定值,与它们相对应的概率分布,就是t分布。统计显著性(sig)就是出现目前样本结果的机率。

P值代表结果的可信程度,P越大,就越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=005提示样本中变量关联有5%的可能是由于偶然性造成的。

一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。

通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。

R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)

Fisher的具体做法是:

假定某一参数的取值。

选择一个检验统计量(例如z 统计量或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的。

从研究总体中抽取一个随机样本计算检验统计量的值计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率。

如果P<001,说明是较强的判定结果,拒绝假定的参数取值。

如果001<P值<005,说明较弱的判定结果,拒绝假定的参数取值。

如果P值>005,说明结果更倾向于接受假定的参数取值。

可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。但是,如果选中相同的,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。

因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。

参考资料来源:百度百科-t检验百度百科-P值

Fishervalvelink是一款全球领先的冷链物流平台,支持多种 *** 作系统。根据Fishervalvelink官方网站上的说明,该平台支持Windows 7、8和10 *** 作系统,因此您可以在Windows 10上使用Fishervalvelink。

请注意,使用Fishervalvelink可能需要安装特定的驱动程序和软件,并且需要满足一些系统要求。建议您前往Fishervalvelink官网或联系其客服人员以获取更多详细信息和技术支持。

%%用LDA将数据降维

% 输入参数

% data:mn的原始数据,m为样本个数,n为维数

% N:各个类别的样本总数,与data中的数据对应

% reduced_dim:新的数据维数

% 输出参数

% reduced_data:经过LDA处理后的mreduced_dim的新数据

% 示例

% data=[295 663; 253 779; 357 565;316 547;258 446; 216 622; 327 352];

% N=[4 3];

function reduced_data=LDA(data,N,reduced_dim)

C=length(N);

dim=size(data',1);%%用LDA将数据降维

% 输入参数

% data:mn的原始数据,m为样本个数,n为维数

% N:各个类别的样本总数,与data中的数据对应

% reduced_dim:新的数据维数

% 输出参数

% reduced_data:经过LDA处理后的mreduced_dim的新数据

% 示例

% data=[295 663; 253 779; 357 565;316 547;258 446; 216 622; 327 352];

% N=[4 3];

function reduced_data=LDA(data,N,reduced_dim)

C=length(N);

dim=size(data',1);% 计算每类样本在data中的起始、终止行数

pos=zeros(C,2);

for i=1:C

    START=1;

    if i>1

        START=START+sum(N(1:i-1));

    end

    END=sum(N(1:i));

    pos(i,:)=[START END];

end% 每类样本均值

UI=[];

for i=1:C

    if pos(i,1)==pos(i,2)

        % pos(i,1)==pos(i,2)时,mean函数不能工作

        UI=[UI;data(pos(i,1),:)];

    else

        UI=[UI;mean(data(pos(i,1):pos(i,2),:))];

    end

end

% 总体均值

U=mean(data);% 类间散度矩阵

SB=zeros(dim,dim);

for i=1:C

    SB=SB+N(i)(UI(i,:)-U)'(UI(i,:)-U);

end% 类内散度矩阵

SW=zeros(dim,dim);

for i=1:C

    for j=pos(i,1):pos(i,2)

        SW=SW+(data(j,:)-UI(i,:))'(data(j,:)-UI(i,:));

    end

end% 该部分可以要,也可以不要

SW=SW/sum(N);

SB=SB/sum(N);% 计算特征值与特征向量

matrix=pinv(SW)SB;

[V,D]=eig(matrix);

condition=dim-reduced_dim+1:dim;

V=V(:,condition);% 根据新的特征向量,将数据映射到新空间

reduced_data=dataV

%%用LDA将数据降维

% 输入参数

% data:mn的原始数据,m为样本个数,n为维数

% N:各个类别的样本总数,与data中的数据对应

% reduced_dim:新的数据维数

% 输出参数

% reduced_data:经过LDA处理后的mreduced_dim的新数据

% 示例

% data=[295 663; 253 779; 357 565;316 547;258 446; 216 622; 327 352];

% N=[4 3];

function reduced_data=LDA(data,N,reduced_dim)

C=length(N);

dim=size(data',1);

% 计算每类样本在data中的起始、终止行数

pos=zeros(C,2);

for i=1:C

START=1;

if i>1

START=START+sum(N(1:i-1));

end

END=sum(N(1:i));

pos(i,:)=[START END];

end

% 每类样本均值

UI=[];

for i=1:C

if pos(i,1)==pos(i,2)

% pos(i,1)==pos(i,2)时,mean函数不能工作

UI=[UI;data(pos(i,1),:)];

else

UI=[UI;mean(data(pos(i,1):pos(i,2),:))];

end

end

% 总体均值

U=mean(data);

% 类间散度矩阵

SB=zeros(dim,dim);

for i=1:C

SB=SB+N(i)(UI(i,:)-U)'(UI(i,:)-U);

end

% 类内散度矩阵

SW=zeros(dim,dim);

for i=1:C

for j=pos(i,1):pos(i,2)

SW=SW+(data(j,:)-UI(i,:))'(data(j,:)-UI(i,:));

end

end

% 该部分可以要,也可以不要

SW=SW/sum(N);

SB=SB/sum(N);

% 计算特征值与特征向量

matrix=pinv(SW)SB;

[V,D]=eig(matrix);

condition=dim-reduced_dim+1:dim;

V=V(:,condition);

% 根据新的特征向量,将数据映射到新空间

reduced_data=dataV;

end

运行环境为matlab2011a,低版本的运行也应该没问题,可以作为你的参考。

% 计算每类样本在data中的起始、终止行数

pos=zeros(C,2);

for i=1:C

    START=1;

    if i>1

        START=START+sum(N(1:i-1));

    end

    END=sum(N(1:i));

    pos(i,:)=[START END];

end程序程

% 每类样本均值

UI=[];

for i=1:C

    if pos(i,1)==pos(i,2)

        % pos(i,1)==pos(i,2)时,mean函数不能工作

        UI=[UI;data(pos(i,1),:)];

    else

        UI=[UI;mean(data(pos(i,1):pos(i,2),:))];

    end

end

% 总体均值

U=mean(data);

% 类间散度矩阵

SB=zeros(dim,dim);

for i=1:C

    SB=SB+N(i)(UI(i,:)-U)'(UI(i,:)-

% 类内散度矩阵

SW=zeros(dim,dim);

for i=1:C

    for j=pos(i,1):pos(i,2)

        SW=SW+(data(j,:)-UI(i,:))'(data(j,:)-UI(i,:));

    end

end

% 该部分可以要,也可以不要

SW=SW/sum(N);

SB=SB/su

% 计算特征值与特征向量

matrix=pinv(SW)SB;

[V,D]=eig(matrix);

condition=dim-reduced_dim+1:dim;

V=V(:,condition);

% 根据新的特征向量,将数据映射到新空间

reduced_data=data

解答如下:

F值表示在某一杀菌条件下的总的杀菌效果,通常是把不同温度下的杀菌时间折算成120℃的杀菌时间,即相当120℃的杀菌时间。应特别注意的是,它不是指工人实际 *** 作所花的时间,它是一个理论上折算过的时间。

P值是衡量控制组与实验组差异大小的指标,意思是P值小于05,表示两组存在显著差异,意思是P值小于01,表示两组的差异极其显著。

这个可以用SPSS统计,根据你的描述自变量应该是果蝇的性别(雌还是雄),因变量应该是寿命,自变量是名义变量,因变量是连续变量,所以用单因素方差分析就可以得出结果了。

另外,在统计解释时一般不看F值,只需要看P值就可以了,但是在写论文时还是要将F值写出来,并把P值放在后面用括号括起来。

R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。

也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。

这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)

Fisher的具体做法是:

假定某一参数的取值。

选择一个检验统计量(例如z 统计量或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的。

从研究总体中抽取一个随机样本计算检验统计量的值计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率。

如果P<001,说明是较强的判定结果,拒绝假定的参数取值。

如果001<P值<005,说明较弱的判定结果,拒绝假定的参数取值。

如果P值>005,说明结果更倾向于接受假定的参数取值。

可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。

但是,如果选中相同的,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。

因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。

本文第一大部分将介绍用R软件的meta分析数据包实现相关系数的Meta分析,第二大部分如何用R语言进行多变量的meta分析。

想获取R语言相关系数meta分析的程序模板的同学请在公众号(全哥的学习生涯)内回复“相关系数”即可。

meta数据包提供实现相关系数的Meta分析命令是:metacor(),这个命令通过加权的倒方差法运用相关系数和纳入的样本数来实现相关系数的随机效用模型和固定效用模型的合并,得到合并的相关系数及95%可信区间。具体的命令如下:

metacor(cor, n,studlab, data= NULL, subset=NULL, sm=settings$smcor)

cor为每一个纳入研究的相关系数, n为样本量, studlab纳入研究的标签向量, data为相应的的数据集,sm选项为合并的方法,包括ZCOR和COR,其中ZCOR是合并之前先做Fisher Z变换,COR是直接合并。具体的步骤如下:

library(meta)

data<-readcsv(“C:/Users/86187/Desktop/datacsv”)

录入的数据见图1。

data<-metacor(r,n,data=m1,sm="ZCOR")

在这里合并的方法用的是Fisher Z变换。对样本的相关系数做Fisher Z变换是因为Fisher Z变换可以使样本的相关系数的分布正态分布,尤其是在样本量较小的时候,这样便于进一步估计。一般来说,不管是随机还是固定效应都会先对相关系数做Fisher Z变换。只有很少的情况下才直接用相关系数直接来做分析,比如样本量很大的时候,如果直接合并相关系数,当相关系数值接近1的时候,小样本量研究得到的权重会非常大。因此在这里推荐合并的方法都用(ZCOR)Fisher Z变换。Meta分析的结果见图2。

结果显示,异质性检验Q=616, P=00461, I2=675,可以认为有统计学意义上的异质性。选用随机效用模型,COR=08427, 95%CI: 06264-09385, z=48724, P<00001, 有统计学差异。

具体的命令如下:

forest(a)

从森林图中,非常简单和直观地看到Meta分析的统计结果,见图3

关于这两个方法的介绍请看我之前公众号(全哥的学习生涯)的推送文章(如何用R语言进行meta分析,详细教程一)的内容。敏感性分析和剪补法的结果图分别见图4和图5。

通常Meta分析假定效应量来自于独立的研究,因此统计结果也是独立的。然而,许多研究不能满足独立性的假设,比如多个治疗组与一个共同的对照组比较的研究和多个结局变量的研究就可能产生效应量之间的相关。多变量meta 分析(multivariate meta⁃analysis)作为单变量meta分析的一个拓展,可合并估计多个研究的多个相关参数,这些参数可以是多个结局或多组间的比较。当同一总体中的测量结局相关时,分别对每个结局进行Meta 分析,测量结局之间的相关结构就可能被忽略。多变量Meta分析在随机对照研究中有多种应用,最简单的是在临床试验中把每个组的结局分别处理,其他的应用还有同时探索两个临床结局的治疗效应,或同时探索成本效益的治疗效应,比较多个治疗的联合试验,以及在观察性研究中评估暴露量与疾病之间的相关性,还有在诊断试验和网络干预中的应用。

本次数据来源请见文末的参考文献,主要研究肝硬化的非手术治疗方式预防其出血的危险性,以初次出血的例数为指标,其中三个组分别是:β⁃受体阻滞剂(A),硬化疗法(B),对照组(C),目的是评价这三种非手术治疗方式预防肝硬化出血的效果。,Bled表示初次出血的例数,Total表示干预组的总例数。YAC和YBC分别表示A、B两组相对于C组估计的ln(OR),即干预组的肝硬化初次出血的危险性是对照组的倍数的自然对数;SAA、SBB和SAB则表示其对应方差及两者之间的协方差。对于包含0的研究(研究10和研究20),在每个组增加05个初次出血的例数。整理后见表1。

随后安装调用程序包,并进行加载:

installpackages(‘mvmeta’)

library(mvmeta)。

随后将肝硬化初次出血整理后的数据集data(至少包含YAC、YBC、SAA、SAB、SBB变量)保存为csv格式,然后利用下面命令将其导入R语言。

mvmeta 的语句:mvmeta(formula,S,data,subset,method=“reml”,bscov=“unstr”,model=TRUE,contrasts=NULL,offset,naaction,control=list())

其中formula 表示结局变量名称(即YAC、YBC);S 表示研究内(协)方差(即SAA、SAB、SBB);data 表示数据集名称;method 表示所用的估计方法:固定效应模型时选择FIXED;随机效应模型时则选择

限制性最大似然估计(REML)、最大似然估计(ML)、矩估计(MM)、方差成分法(VC)的其中之一,默认为REML。由输出结果中Q 检验的P 值和I2 统计量来判断异质性以及选择何种效应模型。

mvmeta包中主要提供了多变量Meta分析与多变量的Meta 回归,另外也提供了单变量的Meta 分析和Meta 回归。但对于后两者,在R 语言中的metafor、meta、rmeta 及metalik 等包提供了更多、更详尽和有效的功能。多变量Meta 程序为library(mvmeta),调用mvmeta软件包。

model<-mvmeta(cbind(Ya,Yb),S=S,data=cirrhosis)

model <- mvmeta(cbind(Ya,Yb)~X,S=S,data=cirrhosis),此处X代表协变量。

model<-mvmeta(Y,S=S,data=cirrhosis),此处Y为单变量的效应量,S为效应量方差。

model<-mvmeta(Y~X,S=S,data=cirrhosis),此处X代表协变量。

运行以上程序后,最后将结果输出。

单变量和多变量Meta分析都是采用ln(OR)值做分析。单变量Meta分析时YAC和YBC的Q检验P 值均小于005,I2统计量分别为577%和778%。多变量Meta分析Q检验P<005,I2统计量为739%。可知两种Meta 分析均存在异质性,都用随机效应模型。估计方法选择默认的REML法。

表2 是单变量Meta 分析结果,可得:AC 与BC的OR 值及95%可信区间分别为05281(02802,09955)、05406(03095,09443),表明初次出血的危险性由于干预而降低,即β⁃受体阻滞剂、硬化疗法可以预防肝硬化出血,两者为保护因素。

多变量Meta 分析的结果:YAC 为-06755(-13073,-00438),YBC 为-05938(-11444,-0043 2),研究间相关系数为0436 5(见表3),A组与B组的治疗效果呈正相关。OR 值及95%可信区间分别为0508 9(02705,09571)、05522(0318 4,0957 7),多变量Meta 分析的结果说明β⁃受体阻滞剂预防肝硬化出血的效果是最好,其次是硬化疗法。OR 值的95%可信区间不包含1,上下限均小于1,说明两种疗法与对照组比较的初次出血危险性均小于1,差异有统计学意义。

最后,如果屏幕前的你对R语言学习还有什么问题或者看法,可以在我的公众号(全哥的学习生涯)给我留言,公众号里也有我的个人****,我也希望可以结合更多志同道合的伙伴。

感谢你的阅读。

以上就是关于什么是t分布,统计显著性, t检验全部的内容,包括:什么是t分布,统计显著性, t检验、fishervalvelink可以在win10用吗、你那个fisher的lda的matlab程序还有吗。能不能给我一个,,谢谢啦等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/10129728.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存