plink功能:数据管理、质控、人群分层检测、关联分析-SNP、多marker预测、haplotype分析、拷贝升做数变异分析、异位显性分析、关联分析-基因、基因环境互作分析、meta分析等。
第一列:家庭编号family id
第二列:个体编号individual id
第三列:父亲编号paternal id
第四列:母亲编号maternal id
第五列:性别(1 male 2 female)
第六列:基因型genotype
第一列:染色体编号1-22 X Y 0(unplaced)
第二列:SNP rs编号
第三列:morgen遗传距离
第四列:碱基对位置bp
PLINK可以在ped和map文件谨虚的基础上通过创建binary ped file (.bed)来节省运行时间和存储空间。这种格式的文件将pedigree/phenotype information存储在.fam文件中,并且通过创建一个.bim文件来储存map信息(包括allele name等)。
在plink中可以通过以下命令创建binary ped文件:
以上命令行将创建出以下三个文件:
plink.bed ( binary file, genotype information )
plink.fam ( first six columns of mydata.ped )
plink.bim ( extended MAP file: two extra cols = allele names)
自行创建表型文件pheno.txt,可在其中存入多种表型或协变量。
前两列必须为FID和IID,后面是表型:
第一列:家庭编号
第二列:个人编号
其他列:表型数据
案例:
格式与表型文件相同。
案例:
方法:
结果文件1:个体.imiss
第一列:家庭编号
第二列:个体编号
第三列:缺失SNP数
第四列:number of non-obligatory missing genotype
第五列:缺失SNP占比
结果文件2:SNP.lmiss
第一列:SNP编号
第二列:染色体编号
第三列:缺失该SNP的个体数
第四列:number of non-obligatory missing genotype
第五列:缺失该SNP的个体数占比
方法:
结果文件:file.hwe
方法:
结吵晌衡果文件:
说明:设置阈值如果超过阈值则删除对应的SNP或个体
结果文件:
结果文件:outlier.nearest
结果文件:plink.assoc
结果文件:plink.fisher
结果文件:plink.model
通过回归矫正协变量。
结果文件:plink.assoc.linear/logistic
更多阅读:
1 GWAS 学习笔记 | 从理论到实践
2 全基因组关联分析(GWAS) — 群体结构
本次使用train.vcf.gz 作为例谈银销子
得到3个以.map, .nosex, .ped结尾的文件。
得到2个以.bim, .bed结尾的文件。
得到2个以.eigenval, .eigenvec结尾的文件其中.eigenval代表每个PCA所占的比重,另外搏做一个记录特征向量,用于坐标轴的绘制
结果
** 若含游想分析部分样本,则可以使用--remove参数,后接一个文件,其格式为: 第一列:群体编号, 第二列:样本名称,在这个例子中
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)