python数据分析（二）：列联分析与方差分析_python

<此部分理论内容结合统计学教材学习>

列联分析

1. 收集样本数据产生二维或多维交叉列联表；
2. 对两个分类变量的相关性进行检验（假设检验）

pandas.crosstab(index,columns,margins,normalize)

- margins默认为False不带合计数据
- normalize=True频率列联表

salary_reform.scv

结果为列联表

补充的内容

列联表的期望分布

根据比例求出的各个变量的期望值

RT为给定单元所在行的合计，CT为给定单元所在列的合计，n为样本量

卡方检验

- 当样本量较大时，上述统计量服从自由度为(r-1)(c-1)的卡方分布

- 用于衡量实际值与理论值的差异程度（有差异表示自变量对因变量有影响）

- 返回值：统计量，p值，自由度
- p值：可以理解为落在极端值上的概率
- 计算方法：已知统计量的值，求对应卡方分布的概率，过大则拒绝原假设（独立）

课堂练习一作列联表

期望值分析卡方检验

结果分析：p值较小，说明race对于工资水平的影响不显著

方差分析

比较多个总体的均值是否相等；
研究一个或多个分类型自变量与一个数值型因变量的关系；

假设：
（1）每个总体都应服从正态分布（如何检验样本是否服从正态分布？）；
（2）各个总体的方差必须相同；
（3）观测值是独立的

单因素方差分析方差齐性检验levene

H0: , H1: 不全相等（自变量对因变量有显著影响）

构建统计量F检验
SST：总平方和；SSA：组间平方和；SSE：组内平方和
；

若原假设成立，则表明没有系统误差，组间方差MSA与组内方差MSE的比值不会太大，F>Fa，拒绝原假设

方差来源分析及检验过程anova_lm()

运算符	说明
+	将运算符左右两边的数据都纳入生成的数据集中
-	将运算符左边的纳入，右边的移除
:	计算运算符两边的交集（交互效应），生成一列数据
*	a+b+a:b形式的简写

关系强度的测量

组间误差占总误差比例越高，相关度越高

多重比较

通过对总体均值之间的两两比较来检验哪些均值之间存在差异

LSD检验

已知总体方差的联合估计量

组内方差

k = 2时，

构造统计量：

若 LSD" src="https://latex.codecogs.com/gif.latex?%7C%20%5Cbar%7Bx_%7Bi%7D%7D-%5Cbar%7Bx_%7Bj%7D%7D%7C%20%3E%20LSD" />，认为差异是显著的，拒绝原假设。

HSD检验

基于学生化极差的成对比较。

计算HSD统计量，如果两组均数的差异大于该极差，认为差异是显著的，拒绝原假设。

HSD检验较LSD检验更保守，更不易发现显著差异，一般用于样本容量相同的组之间的均值比较

多因素方差分析不存在交互效应的多因素方差分析

tv.csv

结果解释：“品牌”的p值过小，拒绝“品牌”的原假设，可认为品牌对销售量有显著影响。

存在交互效应的多因素方差分析

traffic.csv

结果解释：路段对通行时间有显著影响；时段对通行时间有显著影响；没有证据表明路段和时段的交互作用对通行时间有显著影响。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/922947.html

python数据分析（二）：列联分析与方差分析

发表评论

评论列表（0条）