2018-11-01GWAS实战（四）plink 进阶之数据过滤_教程

数据好不好，影响到结果的准确性，所以我们要来对数据进行过滤，过滤前，我们应该对数据的部分特征进行统计描述，以此为依据来进行过滤。

这里介绍的几个指标：

1.individuals with high missing genotype rates （具有高缺失基因型率的个体）

2.missing genotype rate（缺失基因型率统计）

3.minor allele frequency （一个snp上最小等位基因频率）

4.Hardy-Weinberg equilibrium failures（不符合哈德温伯格平衡的（认为这个位点和群体结构有关））

5.Linkage disequilibrium based SNP pruning（基于连锁不平衡筛选snp标记）

这里主要是用一个mind 的参数

--mind 之后的那个参数要自己设置的

这样我就把83个个体过滤掉了

注意这个有个--geno 是对每个snp在所有个体中的缺失率进行过滤

主要是 --missing 这个参数

显示缺失的统计结果

会产生两个文件

一个是imiss,记录了样本的missing data

一个是lmiss,记录了snp的missing data

可以查看缺失率

我们可以发现数据N_GENO 分别与之前的第一步的 *** 作结果报告一一对应。

具体信息对应查看如下：

哈迪-温伯格定律

这一步是对每一个snp做哈迪-温伯格检验,针对等位基因平率的（与下文的LD比较）

会产生一个report （.hwe）

我们来看一下

第一列 snp 所在染色体

第二列 snp 名称

第三列 test的名称

第四列 Minor allele code

第五列 Major allele code

第六列具体数据也就是 AA Aa aa 的个数

第七列观察到的2pq 的值

第八列期望的2pq的值

第九列对这个数据进行卡方检验，看显不显著

检查等位基因频率

产生一个.frq文件

第一列 snp所在的染色体

第二列 snp的名称

第三列最小等位基因

第四列主要等位基因

第五列最小等位基因平率

第六列 Non-missing allele count

连锁不平衡 LD 过滤

这个是计算两个标记间的连锁率

师兄说了，如果是单标记回归，可以不做，影响不大，最多影响速度，但是在多标记回归算基因互作的问题中，应该要做删选，因为不做的话会把连锁的snp误当做是基因互作。

如果做了LD，那么扫描出来的点可能很明显，只有一个，如果没有做LD,可能扫描出来的点是一团。

有两种方法可以做，这里只说一种

会产生两个文件，一个是plink.prune.in，一个是plink.prune.out

我不贴图了，就是标记名字，

这个文件是可以用来做删选的参数的

这样就LD过滤好啦

会产生过滤好的结果

好啦，其实还有好多其他要检测或者过滤的，不过这里介绍的是主要的一些，暂时用自然群体，也不考虑家系结构，这次写了好多，也算是学到了一点点皮毛了。

1、按Win+X，按F进入“应用和功能”设置：

2、按Tab移动选项框至应用列表处：

3、使用上下方向键移动至“Asus_frq_control”处，敲击回车：

4、按Tab移动选项框至“卸载”按钮，回车出现提示框表示需先关闭此程序才能完成卸载，敲击回车选择OK并重启即可（图4）。

5、

如无法执行上述 *** 作，或者机器进入系统后就卡死无法打开菜单，可连续两次强制关机-重启之后选择“高级选项”-“疑难解答”-“高级选项”-“启动设置”，并于重启后按“4”进入安全模式，在安全模式中删除C:\Program

Files (x86)\ASUS 路径下的Asus_frq_control文件夹及文件，再次重启，即可。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/tougao/8051740.html

2018-11-01GWAS实战（四）plink 进阶之数据过滤

发表评论

评论列表（0条）