spss全距在哪里选:在描述性分析里面可以做spss全距。
4命名时候第一行最好用字母表示,如果想要代表其实际含义的话,在第二行标签上赋予即可,在点击添加。以此类推,将4个因素给添加上去。5添加好各个因素之后,需要对其水平进行定义,点击选中一个因素,在点击下角的定义值,之后,我们进入d窗。
兼容性:
随着自身产品线的不断完善,SPSS公司的产品体系已经日益完整,而不同产品间的互补和兼容性也在不断加以改进。在13版中,SPSS软件已经可以和其他一些最新的产品很好的整合在一起,形成更为完整的解决方案。
例如,SPSS、SPSS Data Entry和新发布的SPSS Text Analysis for Surveys一起就形成了对调查研究的完整解决方案。而新增的SPSS Classification Trees模块将使得SPSS软件本身就能够针对市场细分工作提供更为完整的方法体系。
一、试验资料的类型
对试验资料进行分类是统计归纳的基础。
一、数量性状资料
数量性状(quantitative character)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料 (data of quantitative characteristics)。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。
1、计数资料:
指用计数方式获得的数量性状资料。
在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料。
2、计量资料 :
指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。
这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定, 它们之间的变异是连续性的,因此计量资料也称为连续变量资料。
二、质量性状资料
质量性状( qualitative character )是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(data of qualitative characteristics ),也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:
1、统计次数法
在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计。这种由质量性状数量化得来的资料又叫次数资料。
2、评分法
对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。
一、调查
资料的调查又可以分为两种:普查和抽样调查。
1、普查
是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。
2、抽样调查
是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。
随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。
二、试验
试验
是对已有的或没有的事物加以处理的方法。
常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。
试验设计须遵循的三大原则是:随机、重复和局部控制。
(一)原始资料的检查与核对
检查和核对原始资料的目的:确保原始资料的完整性和正确性。
(二)次数分布表
统计表的结构和要求:结构简单,层次分明,安排合理,重点突出,数据准确。
1 计数资料的整理
计数资料基本上采用单项式分组法进行整理。
特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。
2 计量资料的整理
计量资料一般采用组距式分组法。
(1) 求全距,又称极差(range):R=X max - X min
(2) 确定组数和组距(class boundary)
组距=全距/组数,
(3)确定组限(class limit)和组中值(class midvalue)
(4) 分组
确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。
(三)次数分布图和频率分布图
定义:把次数(频率)分布资料画成统计图形 。
特点:直观、形象
包括 : 条形图bar chart又称柱形图 柱形之间要间隔一定的距离
直方图 (histogram),又称矩形图 各组之间没有距离
多边形图(polygon),又称折线图(broken-line chart)
饼图(pie chart)和散点图(scatter)
统计图绘制的基本要求:
(1)标题简明扼要,列于图的下方;
(2)纵、横两轴应有刻度,注明单位;
(3)横轴由左至右,纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5;
(4)图中需用不同颜色或线条代表不同事物时,应有图例说明。
变量的分布具有两种明显的基本特征:集中性和离散性。
集中性 是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。
离散性 是变量有着离中分散变异的性质。
一、平均数
平均数 平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。
1 算术平均数 (arithmetic mean)
定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。
2 中位数(median) (Md)
资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。
3 众数(mode) (M0)
资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。
注意:
(1)对于某些数据而言,如均匀分布,并不存在众数;
(2)对于某些数据存在两个或两个以上的众数;
(3)主要用来描述频率分布。
4 几何平均数 (geometric mean)(G)
资料中有n个观测数,其乘积开n次方所得数值。
适用范围:几何均数适用于变量X为对数正态分布, 经对数转换后呈正态分布的资料。
5 调和平均数 (harmonic mean) (H)
资料中各观测值倒数的算术平均数的倒数。
适用范围:主要用于反映生物不同阶段的平均增长率或不同规模的平均规模。
(三)算术平均数的重要性质
离均差之和等于零。
离均差平方和最小。
四)算术平均数的作用
(1)指出一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平。
(2)作为样本或资料的代表数与其他资料进行比较。
(3)通过平均数提供计算样本变异数的基本数据。
(4)用样本的平均数估计总体平均数。
(一)极差(全距,range)(R)
极差是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。
方差(Variance)
各个观测值与平均数的离差,即离均差。
平方和(SS)
标准差(standard deviation, Sd)
样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出 样本方差的平方根 。
特点:1 标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。
2各观测数加上或减去一个常数,其标准差不变;
3各观测数乘以或除以一个常数a,其标准差扩大或缩小a倍。
表示变量分布的离散程度。
可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。
估计平均数的标准误。
进行平均数的区间估计和变异系数计算。
(四)变异系数(coefficient of variability, CV )
定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。
特点:是样本变量的相对变异量,不带单位。可以比较不同样本相对变异程度的大小。
用途: 比较度量衡单位不同的多组资料的变异度。
比较均数相差悬殊的多组资料的变异度。
要先求组距,然后通过组距来计算,最上限值减最下限值。
它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极差(Moving Range)是其中的一种,极差不能用作比较,单位不同 ,方差能用作比较, 因为都是个比率。
全距注意:
将所有数据按照升序进行排列,如果有奇数个数值,则中位数为中间的数值;如果有偶数个数值,则中位数为两个中间的数值相加再除以2得到的结果。选出具有最大频数的一个或几个数值,如果数据可分为两组,则为每组找出一个众数。 在遇到类别数据时使用。当数据可以分为两个或更多组时使用。
1、如果一定要用word的就用word的“插入---图表”,
2、然后双击图表就会有图表属性的设置,在形状那里选择柱状就可以。
或者我们在excel中已经插入了柱形图图表,现在我们在word中插入excel表格文件即可实现柱形图插入到word中。
直方图的绘制方法:
步骤一、收集数据(计量值):至少收集50个以上的数据(最好是100个以上)。
步骤二、定组数(K):决定一群数据要分成多少组,来建立次数分配表。
步骤三、定组距(C):
1全距:找出一群数据中最大值与最小值。
2 全距R=最大值L—最小值S。
3组距:全距除以组数等于组距。
组距C=全距R÷组数
步骤四、定各组上下组界:
1须采用数据测定时所采用的单位之1/2,为组界单位。避免某些数据刚好落在组界。
例:数据为04则组界值为005。
2同时必须使最大与最小的两组之组界间隔能够对称。
步骤五、求各组中点:每一组都有其上、下组界限,取两组之和在除以2,即可得组中点。
步骤六、做次数分配表:把该群数据依各组之组界,将各数据逐个画记并归于各组内。即得次数分配表。
每组的最高数值与最低数值之间的距离。在分组整理统计量数时,组的大小可因系列内量数的全距及所要划分的组数的不同而有所不同。每一组的最小限度叫做下限,最大限度叫做上限。下限和上限之间的距离,即为组距。什么是组距分组组距分组是将全部第一章绪论1生物统计学的内容:统计原理、统计方法和试验设计。
2生物统计的作用:a科学地整理分析数据;b判断试验结果的可能性;c确定事物之间的相互关系;d提供试验设计的原理。
3样本容量常记为n,通常把n≤30的样本称为小样本,n>30的样本称为大样本。
4名解:(重)①生物统计:生物统计是应用概率论和数据统计的原理和方法来研究生物界数量变化的学科;
②总体:是被研究对象的全体,据所含的个体的多少,总体分为有限总体和无限总体。
③样本:是指总体内随机抽取出来若干个体所组成的单位。
④随机误差:由于许多无法控制的内在和外在的偶然因素所造成的误差,内在如个体差异,外在如环境,它影响试验的精确性。
(了)①参数:从总体计算出来的数量特征值,它是一个真值,没有抽样变动的影响,一般用平均数u,标准差s。
②统计量:是从样本计算出来的数量特征值,它是参数的估计值,受样本变动的影响,一般用拉丁字母表示,如平均数。
③系统误差:主要是试验动物的初始条件不同,试验条件相差较大,仪器不准,标准试剂未经校正,药品批次不同,药品用量与种类不符合试验计划要求,以及观察,记录抄案,计算中的错误所引起的误差,它影响试验的准确性。
④准确性:指在试验或调查中某试验指标或形状的观测值与其真值接近的程度。
⑤精确性:指试验或调查中一试验指标或形状的重复观测值彼此接近的程度。
第二章资料的整理
1统计资按性质分为:计量资料、次数资料和半定量资料。
2计量资料是指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测量获得的数量性状资料。计量资料整理的五步骤如下:
(1)求全距,即资料中最大值和最小值之差R=Max(x)—Min(x);
(2)确定组数即按样本大小而定;
样本含量与组数
样本含量 组数
30~60 6~8
60~100 8~10
100~200 10~12
200~500 12~17
500以上 17~30
(3)确定组距,每组最大值与最小值之差记为i ,公式:组距(i)=全距(R)/组数k ;(4)确定组中值及组限,各组的最大值和最小值称为组限,最小值为下限,最大值为上限,每组的中点值称为组中值,组中值=(下限+上限)/2=下限+组距/2=上限-组距/2;(5)归组划线计数,作次数分布表。
3常用的五种统计图为长条图、圆图、线图、直方图、折线图,掌握直方图和折线图的绘制。
4原始资料的检查核对主要进行下面三性的检查:①检查资料的完整性;②检查资料的正确性;③检查资料的精确性。
5大样本资料需整理成次数分布表。
第三章资料的统计描述
1平均数包括以下五种算术平均数、中位数、众数、几何平均数及调和平均数。
2用来度量资料变异程度的指标主要有极差、方差、标准差、变异系数。
3平均数的基本性质是(1)样本各观测值与平均数之差的和为零,简述为离均差之和为;(2)样本各观测值与平均数之差的平方和为最小,简述为离均差平方和为最小。
410头母猪第一胎产仔数为9、8、7、10、12、10、11、14、8、9(头)计算10头母猪第一胎产仔数的平均数、中位数、标准差和变异系数。
解:①平均数Σx=9+8+7+10+12+10+11+14+8+9=98,n=10
②资料数据按小到大排列如:7、8、8、9、9、10、10、11、12、14
中位数
③标准差
④变异系数
第四章常用概率分布
1事件概率具有以下性质:①对于任何事件A,有0≤P(A)≤1;②必然事件的概率为1,即P(Ω)=1:③不可能的事件概率为0,即P(Ø)=0。
2(1)正态分布:若连续型随机变量X的概率分布密度函数为
其中 为平均数,σ2为方差,则称随机变量X服从正态分布,记为X~ 。相应的概率分布函数为
正态分布密度曲线为:
(2)标准正态分布::当μ=0、σ=l时,正态总体称为标准正态总体,其相应的函数表示式是,(-∞<x<+∞)
其相应的曲线称为标准曲线;标准正态总体的概率问题:
对于标准正态总体N(0,1), 是总体取值小于 的概率,
即 ,
其中 ,图中阴影部分的面积表示为概率 只要有标准正态分布表即可查表解决从图中不难发现:当 时, ;而当 时,Φ(0)=05;标准正态总体 在正态总体的研究中有非常重要的地位,为此专门制作了“标准正态分布表”.在这个表中,对应于 的值 是指总体取值小于 的概率,即 , .
若 ,则 .
利用标准正态分布表,可以求出标准正态总体在任意区间 内取值的概率,即直线 , 与正态曲线、x轴所围成的曲边梯形的面积 .
(3)有关概率计算的公式:
P(0≤u<u1)=Φ(u1)-05
P(u≥u1) =Φ(-u1)
P(|u|≥u1)=2Φ(-u1)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
注:用曲线图和面积来理解记忆。
(4)关于标准正态分布要熟记下列几种常用概率:
P(-1≤u<1)=06826
P(-2≤u<2)=09545
P(-3≤u<3)=09973
P(-196≤u<196)=095
P (-258≤u<258)=099
(5)例:①已知u~N(0,1),试求: (1) P(u<-164)= (2) P (u≥258)= (3) P (|u|≥256)= (4) P(034≤u<153) =
利用(4-12)式,查附表1得:
(1) P(u<-164)=005050
(2) P (u≥258)=Φ(-258)=0024940
(3) P (|u|≥256)=2Φ(-256)=2×0005234=0010468
(4) P (034≤u<153)=Φ(153)-Φ(034)=093669-06331=030389
②已知u~N(0,1)试求:
(1) P(u<- )+P(u≥ )=010的
(2) P(- ≤u< ﹚=086的
因为附表2中的α值是:
所以
(1) P(u<- )+ P(u≥ )=1- P(- ≤u< ﹚=010=α
由附表2查得: =1644854
(2) P (- ≤u< )=086 ,α=1- P (- ≤u< )=1-086=014
由附表2查得: =1475791
对于x~N(μ,σ2),只要将其转换为u~N(0,1),即可求得相应的双侧分位数。
③已知猪血红蛋白含量x服从正态分布N(1452, ), 若P(x<11) =0025, P(x> )=0025,P(x< ) =0005,P(x> )=0005,求 , , , 。
由题意可知,α/2=0025,α=005 又因为
P(x> )=
故 P(x< =+ P(x> )= P(u<- =+ P(u> )
=1- P(- 由附表2查得: =1959964,所以
( -1452)/168=-1959964, ( -1452)/168=1959964
即 ≈1123, ≈1781。
同理 =2575829,所以
( -1452)/168=-2575829, ( -1452)/168=2575829
即 ≈1019, ≈1885。
④已知猪血红蛋白含量x服从正态分布N(1286, ), 若P(x< ) =003, P(x≥ )=003,求 , 。
由题意可知,α/2=003,α=006 又因为
P(x≥ )=
故 P(x< =+ P(x≥ )= P(u<- =+ P(u≥ )
=1- P(- ≤P< )=006=α
由附表2查得: =1880794,所以
( -1286)/133=-1880794, ( -1286)/133=1880794
即 ≈1036, ≈1536。
3 ①双侧概率(重):把随机变量X落在平均数 左右标准差σ一定倍数区间之外的概率记作σ;②单侧概率:指所求得随机变量X小于平均数 左侧标准差σ一定倍数或大于平均数 右侧标准差σ一定倍数的概率记作σ/2。
第五章假设检验
1显著性检验:就是指在对资料进行统计分析时,先提某一问题对样本所在总体的参数提出一个统计假设,然后根据从样本获得的统计量所服从的概率分布,对这一假设进行检验;其目的是主要是看样本是否来自于均数相同的总体即通过对样本的研究来对总体作出统计推断;检验的对象是在统计学中,是以样本平均数差异x1- x2的大小时样本所在的总样本平均数 1、 2是否相同作出推断。
2为什么以样本均数作为检验对象呢?是因为样本平均数具有下述特性:
(1)离均差的平方和 (xi- )2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。
(2)样本平均数是总体平均数的无偏估计值,即E( )= 。
(3)根据统计学中心极限定理,样本平均数 服从或逼近正态分布。
所以,以样本平均数作为检验对象,由两个样本平均数x1和x2的差异去推断样本所属总体平均数是否相同时有依据的。
3(了) ①标准误(平均数抽样总体的标准差) 的大小反映样本平均数 的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数 间差异程度大,样本平均数的精确性低。反之, 小,说明 间的差异程度小,样本平均数的精确性高。 的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数 的抽样误差。在实际工作中,总体标准差σ往往是未知的,因而无法求得 。此时,可用样本标准差S估计σ。于是,以 估计 。记 为 ,称作样本标准误或均数标准误。②区别:样本标准差与样本标准误是既有联系又有区别的两个统计量, = 已表明了二者的联系。二者的区别在于:样本标准差S是反映样本中各观测值 , ,…, 变异程度大小的一个指标,它的大小说明了 对该样本代表性的强弱。样本标准误 是样本平均数 的标准差,它是 抽样误差的估计值, 其大小说明了样本间变异程度的大小及 精确性的高低。
4 ①小概率事件通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于005、001、0001,称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。
②一统计资料进行统计推断判断的原则如下:
Ⅰ、当 < ,P>005 时,差异不显著,用“NS”表示,不能否H0 ;
Ⅱ、当 ≤ ≤ ,001< P <005时,差异显著,用“”表示,接受HA,否定H0 ;
Ⅲ、当 ≥ ,P≤001时,差异极显著,用“”表示,接受HA,否定H0 。
5计算题:了解样本均数与总体均数的差异性显著检验及两样本均数的差异性显著检验;重点知道正态总体平均数 的置信区间。
例:①计算下列资料总体平均数的95%,99%置信区间,119、22、104、32、53、31、118、57、30、101、、58、48、68、70。
解:资料总体平均数的95%,99%置信区间
df=n-1=14-1=13,故 =2160, =3012
=650714 ,S=333293, 92431
所以⑴95%置信半径为 =199668
95%置信下限为 — =451046
95%置信上限为 — =850382
即该资料总体平均数u 的95%置信区间为451046≤u≤850382
⑵99%置信半径为 =278426
99%置信下限为 — =372288
99%置信上限为 — =929140
即该资料总体平均数u 的99%置信区间为372288≤u≤929140 。
②随机抽测了10只兔的直肠温度,其数据为:387、390、389、396、391、398、385、397、392、384℃。已知该品种兔直肠温度的总体平均数为 ℃,检验该样本平均数温度与 是否有显著性差异?
解:⑴提出无效假设与备择假设
H0 : =395,HA: <395
⑵计算t值 经计算得 =3909,S=04909
t=( - )/ =-26411
⑶统计推断
由df=n-1=10-1=9,查附表得临界t值
=2262 =3250, <︱t︱< ,001< P < 005
否定H0,HA接受,表明样本平均数 与已知总体平均数 差异显著
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)