1
方法
性质1:
设x是一个随机变量,其分布函数为f(x),则y=f(x)服从在〔0,1〕的均匀分布。
性质2:
设x1,k,xn是某个分布的一个简单样本,其分布函数为f(x),由性质1可知,在概率意义下,f(x1),f(x2),k,f(xn)在(0,1)上呈均匀分布,按从小到大依次排序,记为f(x1),f(x2),k,f(xn),其相应理论值应为ri=i-0,5[]n,i=1,2,…,n,对应分布函数的反函数值f-1(r1),f-1(r2),k,f-1(rn)(在卡方分布中即为卡方分数)应非常接近x1,x2k,xn,故在概率意义下,这些散点(x1,f-1(r1)),(x2,f-1(r2)),l,(xn,f-1(rn))应在一条直线上。
根据性质2,如果x服从正态分布,则散点理论上应落在一直线上,可以用pearson系数刻画这种分布。但由于随机变异的存在,pearson系数并不等于1,所以通过随机模拟的方法,制定出pearson系数的95%界值下限。
性质3:
由条件概率公式p(x,y)=p(y|x)p(x)可知:(x,y)服从二元正态分布的充分必要条件是固定x,y服从正态分布(条件概率分布)并且x的边际分布为正态分布。由线性回归的性质ε=y-(α+βx)可知,固定x,y的条件概率分布为正态分布的充分必要条件是线性回归的残差ε服从正态分布,由此可得:(x,y)服从二元正态分布的充分必要条件是x的边际分布为正态分布以及线性回归模型y=α+βx+ε中的残差服从正态分布。
设x来自于正态总体,从正态总体中随机模拟抽样5000次,每次抽样样本含量分别为7至50,对f(x)求秩,求出排序后的f(x)和排序后的x的pearson相关系数。表1
随机模拟5000次得到的检验正态分布的pearson相关系数的界值(略)
类似地,我们也可以用同样的方法得到检验卡方分布的pearson相关系数的界值表(简化表)表2
相关系数界值表(略)
2
随机模拟验证
21
pearson相关系数界值表的随机模拟验证
设x来自于正态总体,从正态总体中随机模拟抽样5000次,每次抽样样本含量分别为10,20,30,40,50,并计算相应的pearson卡方系数,以及落在界值外面的比例,即拒绝比例,再在同一批数据的前提下用mcnemar检验比较本方法和swilk法的差别。表3
(一元正态分布)模拟次数(略)表4(一元偏态分布,χ2)模拟次数(略)
以上方法拒绝比例在样本量为7的可信区间为[7837%,9412%],在其余样本量时都接近100%,可以证实是正确的。
22
卡方分布界值表的随机模拟验证
表5
卡方分布:模拟5000次(略)
23
马氏距离的随机模拟验证
根据马氏距离的定义,从正态分布总体中随机抽取样本量分别为10,20,30,40,50的样本模拟5000次,根据上面提到的方法以卡方分数对x1,x2k,xn求pearson系数,并根据以上的相关系数界值表,计算相应的统计量,即拒绝比例。表6
马氏距离落在pearson系数界值表外的比例(略)
24
二元正态分布资料的随机模拟验证
设定一个二维矩阵a,分别求出特征值p和特征向量z,设x的元素均来自于正态总体分布,则y=z′×x必服从二元正态分布,随机模拟5000次,根据性质三介绍的方法验证的拒绝比例如下。表7
(二元正态分布)模拟次数(略)表8
(二元偏态分布,χ2)模拟次数(略)
25
三元正态分布资料的随机模拟验证
类似地,随机模拟5000次,用同样方法进行验证,得到对于三元正态分布数据的拒绝比例。表9
(三元正态分布)模拟次数:5000次
将未知量Z对应的列上的数 与 行所对应的数字 结合 查表定位
例如 要查Z=196的标准正态分布表
首先 在Z下面对应的数找到19
然后 在Z右边的行中找到6
这两个数所对应的值为 09750 即为所查的值
扩展资料:
标准正态分布一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。期望值μ=0,即曲线图象对称轴为Y轴,标准差σ=1条件下的正态分布,记为N(0,1)。
标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)。
标准正态分布曲线下面积分布规律是:在-196~+196范围内曲线下的面积等于09500,在-258~+258范围内曲线下面积为09900。统计学家还制定了一张统计用表(自由度为∞时),借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。
密度函数关于平均值对称
平均值与它的众数(statistical mode)以及中位数(median)同一数值。
函数曲线下68268949%的面积在平均数左右的一个标准差范围内。
95449974%的面积在平均数左右两个标准差的范围内。
99730020%的面积在平均数左右三个标准差的范围内。
99993666%的面积在平均数左右四个标准差的范围内。
函数曲线的反曲点(inflection point)为离平均数一个标准差距离的位置。
参考资料:
一、制作直方图
将数据输入到EXCEL同一列中(这里放入A列);
计算“最大值”、“最小值”、“极差”、“分组数”、“分组组距”;
最大值:max(A:A);(=579)
最小值:min(A:A);(=506)
极差:最大值-最小值;(=73)
分组数:roundup(sqrt(count(A;A)),0);(=18)/count(A:A)计算A列包含数字的单元格个数,sqrt求平方根,roundup按指定位数对数据进行向上四舍五入/;
分组组距:极差/分组数;(04)
数据分组:选一个比最小值小的一个恰当的值作为第一个组的起始坐标,然后依次加上“分组组距”,直到最后一个数据值比“最大值”大为止。
这里第一个组的起始坐标选为505,依次增加04,最后一组坐标为582,共计20组
统计频率:统计每个分组中所包含的数据的个数。
方法:采用FREQUENCY函数,以一列垂直数组返回一组数据的频率分布,
1、=frequency(原始数据的范围,直方图分组的数据源);
2、先选中将要统计直方图每个子组中数据数量的区域
3、再按“F2”健,进入到“编辑”状态
4、再同时按住“Ctrl”和“Shift”两个键,再按“回车Enter”键,最后三键同时松开
制作直方图:选择频率数插入柱状图
修整柱形图:设置数据系列格式-调制无间距
二、制作正态分布图
获取正态分布概念密度:NORMDIST(作用:返回指定平均值和标准偏差的正态分布函数)
语法:
NORMDIST(x,mean,standard_dev,cumulative)
X 为需要计算其分布的数值;(以每一个分组边界值为“X”,依次往下拉)
Mean 分布的算术平均值;(Mean=AVERAGE(A:A)(数据算术平均))这里为5409
Standard_dev 分布的标准偏差;(Standard_dev=STDEVS(A:A)(数据的标准方差)115
Cumulative=false(概率密度函数)
Cumulative 为一逻辑值,指明函数的形式。如果 cumulative 为 TRUE,函数 NORMDIST 返回累计分布函数;如果为 FALSE,返回概率密度函数。
在直方图中增加正态分布曲线图:设置曲线图,选择次坐标轴。
原本就是一个很复杂的问题,却没有指明数据的特点,要知道即便是专业网站求助一个比你的问题简单得多的问题,有时是要被要求上传附件的,就我对EXCEL的了解,好像EXCEL解决不了你的问题。
方法和详细的 *** 作步骤如下:
1、第一步,新建Excel文档,见下图,转到下面的步骤。
2、第二步,执行完上面的 *** 作之后,输入x轴值(计算分布度),例如区间[-1,1],间隔为01,见下图,转到下面的步骤。
3、第三步,执行完上面的 *** 作之后,由AVERAGE函数计算的平均值为0,见下图,转到下面的步骤。
4、第四步,执行完上面的 *** 作之后,选择函数STDEV并计算标准偏差,见下图,转到下面的步骤。
5、第五步,执行完上面的 *** 作之后,选择正态分布函数NORMDIST并计算返回概率密度分布值,见下图,转到下面的步骤。
6、第六步,执行完上面的 *** 作之后,选择“图表”-->“折线图”选项,然后完成分布图,见下图。这样,就解决了这个问题了。
基本满足对数正态分布,呵呵
我后来想了一下,这样不知道行不行:
先对数据进行对数正态分布检验,用对数正态分布参数估计,这样能得到其u和o的极大似然估计值,以及95%的置信区间。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)