全基因组关联分析工具集 - plink_教程

plink官网： http://zzz.bwh.harvard.edu/plink/

plink功能：数据管理、质控、人群分层检测、关联分析-SNP、多marker预测、haplotype分析、拷贝升做数变异分析、异位显性分析、关联分析-基因、基因环境互作分析、meta分析等。

第一列：家庭编号family id

第二列：个体编号individual id

第三列：父亲编号paternal id

第四列：母亲编号maternal id

第五列：性别（1 male 2 female）

第六列：基因型genotype

第一列：染色体编号1-22 X Y 0(unplaced)

第二列：SNP rs编号

第三列：morgen遗传距离

第四列：碱基对位置bp

PLINK可以在ped和map文件谨虚的基础上通过创建binary ped file (.bed)来节省运行时间和存储空间。这种格式的文件将pedigree/phenotype information存储在.fam文件中，并且通过创建一个.bim文件来储存map信息（包括allele name等）。

在plink中可以通过以下命令创建binary ped文件：

以上命令行将创建出以下三个文件：

plink.bed ( binary file, genotype information )

plink.fam ( first six columns of mydata.ped )

plink.bim ( extended MAP file: two extra cols = allele names)

自行创建表型文件pheno.txt，可在其中存入多种表型或协变量。

前两列必须为FID和IID,后面是表型：

第一列：家庭编号

第二列：个人编号

其他列：表型数据

案例：

格式与表型文件相同。

案例：

方法：

结果文件1：个体.imiss

第一列：家庭编号

第二列：个体编号

第三列：缺失SNP数

第四列：number of non-obligatory missing genotype

第五列：缺失SNP占比

结果文件2：SNP.lmiss

第一列：SNP编号

第二列：染色体编号

第三列：缺失该SNP的个体数

第四列：number of non-obligatory missing genotype

第五列：缺失该SNP的个体数占比

方法：

结果文件：file.hwe

方法：

结吵晌衡果文件：

说明：设置阈值如果超过阈值则删除对应的SNP或个体

结果文件：

结果文件：outlier.nearest

结果文件：plink.assoc

结果文件：plink.fisher

结果文件：plink.model

通过回归矫正协变量。

结果文件：plink.assoc.linear/logistic

更多阅读：

1 GWAS 学习笔记 | 从理论到实践

2 全基因组关联分析（GWAS) — 群体结构

本次使用train.vcf.gz 作为例谈银销子

得到3个以.map, .nosex, .ped结尾的文件。

得到2个以.bim, .bed结尾的文件。

得到2个以.eigenval, .eigenvec结尾的文件其中.eigenval代表每个PCA所占的比重，另外搏做一个记录特征向量，用于坐标轴的绘制

结果

** 若含游想分析部分样本，则可以使用--remove参数，后接一个文件，其格式为：第一列：群体编号，第二列：样本名称，在这个例子中

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/tougao/12127375.html

全基因组关联分析工具集 - plink

发表评论

评论列表（0条）