python数据分析(二):列联分析与方差分析

python数据分析(二):列联分析与方差分析,第1张

<此部分理论内容结合统计学教材学习>

列联分析

1. 收集样本数据产生二维或多维交叉列联表;
2. 对两个分类变量的相关性进行检验(假设检验)

pandas.crosstab(index,columns,margins,normalize)

 - margins默认为False不带合计数据
 - normalize=True频率列联表

 

salary_reform.scv 

 

  结果为列联表

补充的内容

列联表的期望分布

根据比例求出的各个变量的期望值

RT为给定单元所在行的合计,CT为给定单元所在列的合计,n为样本量

 卡方检验

 - 当样本量较大时,上述统计量服从自由度为(r-1)(c-1)的卡方分布

 - 用于衡量实际值与理论值的差异程度(有差异表示自变量对因变量有影响)

 - 返回值:统计量,p值,自由度
        - p值:可以理解为落在极端值上的概率
        - 计算方法:已知统计量的值,求对应卡方分布的概率,过大则拒绝原假设(独立)

课堂练习一  作列联表

 期望值分析 ​​​​​​​  卡方检验 

结果分析:p值较小,说明race对于工资水平的影响不显著


 方差分析

比较多个总体的均值是否相等;
研究一个或多个分类型自变量与一个数值型因变量的关系;

假设:
(1)每个总体都应服从正态分布(如何检验样本是否服从正态分布?);
(2)各个总体的方差必须相同;
(3)观测值是独立的

单因素方差分析 方差齐性检验levene

H0: ,         H1: 不全相等(自变量对因变量有显著影响)

构建统计量F检验
SST:总平方和;SSA:组间平方和;SSE:组内平方和
 ;

若原假设成立,则表明没有系统误差,组间方差MSA与组内方差MSE的比值不会太大,F>Fa,拒绝原假设 

方差来源分析及检验过程anova_lm()

运算符

说明

+

将运算符左右两边的数据都纳入生成的数据集中

-

将运算符左边的纳入,右边的移除

:

计算运算符两边的交集(交互效应),生成一列数据

*

a+b+a:b形式的简写

 关系强度的测量


组间误差占总误差比例越高,相关度越高

多重比较

通过对总体均值之间的两两比较来检验哪些均值之间存在差异 

LSD检验

已知总体方差的联合估计量

组内方差

k = 2时,

构造统计量:

若 LSD" src="https://latex.codecogs.com/gif.latex?%7C%20%5Cbar%7Bx_%7Bi%7D%7D-%5Cbar%7Bx_%7Bj%7D%7D%7C%20%3E%20LSD" />,认为差异是显著的,拒绝原假设。

HSD检验

基于学生化极差的成对比较。

计算HSD统计量,如果两组均数的差异大于该极差,认为差异是显著的,拒绝原假设。

HSD检验较LSD检验更保守,更不易发现显著差异,一般用于样本容量相同的组之间的均值比较

 多因素方差分析 不存在交互效应的多因素方差分析

 tv.csv

 

结果解释:“品牌”的p值过小,拒绝“品牌”的原假设,可认为品牌对销售量有显著影响。

存在交互效应的多因素方差分析

 

traffic.csv 

 

结果解释:路段对通行时间有显著影响;时段对通行时间有显著影响;没有证据表明路段和时段的交互作用对通行时间有显著影响。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/922947.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-16
下一篇 2022-05-16

发表评论

登录后才能评论

评论列表(0条)

保存