GWAS -4 VCF格式文件转为Plink文件_教程

参考： https://cloud.tencent.com/developer/article/1556166

plink1.9版本支持转化为VCFv4.2格式

plink2.0版本支持转化为VCFv4.3格式

两个版本用到的命令不一样

对于plink1.9版本，转化为vcf文件的命令行为：

生成的vcf为4.2版本

对于plink2.0版本，转化为vcf文件的命令行为：

生成的vcf为4.3版衫宽本

参考： https://www.cnblogs.com/chenwenyan/p/8574237.html

链接： https://www.jianshu.com/p/8b4e7b3b7f5e

vcf 转为 ped/map

vcftools --vcf snp.vcf --plink --out snp

plink --vcf snp.vcf --recode --out snp

ped和map文件是Plink的基本格式。

ped文件包含以下几列：

第一列：Family ID。

第二列：Individual ID。自然群体这列和Family ID是一样的。

第三列：Paternal ID。未提供信息的话这列为0。

第四列：Maternal ID。未提供信息的话这列为0。

第五列：Sex。未提供信息的话这列为0。

第六列：Phenotype。一般来说，直接拿vcf转换的话这列为-9，也就是缺失。

第七列开始就是个体在每个标记位点的基因型。

map文件包含以下几列：

第一列：染色体编号。

第二列：SNP编号。

第三列：遗传距离。未提供信息的话这列为0。

第四列：物理位置。

ped/map 与 tped/tfam 格式互换

plink --file snp --recode --transpose --out snp_test

plink --tfile snp_test --recode --out snp

ped/map 与 bed/bim/fam互换

plink --file snp --make-bed --out snp_test

plink --bfile snp_test --recode --out snp

tped/tfam 与 bed/bim/fam互换

plink --tfile snp --make-bed --out snp_test

plink --bfile snp_test --recode --transpose --out snp

bed/bim/fam 转为 vcf

plink --bfile snp --export vcf --out snp_test

常用的Plink格式转换就是这些，大家可以根据自己实际需要相互转换。

因为PLINK默认的设置是人的染色体简粗，所以动物中，我们应该设置

--chr-set 19 # 猪

已有的选择：

--cow

--dog

--horse

--mouse

--rice

--sheep

参考：或咐亮 https://zhuanlan.zhihu.com/p/109071456

我现在的问题是这样的

vcf文件转plink的格式

方法一

vcftools

出错这样

方法二plink

都是一样的结果

就无语

之前我的文件有这些

现在是这些

然后看到了这些

然后发现文件又是临时文件

说明又出错了

所以，现在或许又要解决那一行的无效染色体

然后我就使用了--allow-extra-chr

哈，又回到了族慎渗最初的起点

可是我看意思，plink2不应该有这个问题啊

应该是 --vcf-half-call的格孝友式不对

然后换回plink1

重看官网

以及 https://www.jianshu.com/p/38e603979334?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

发现格式

发现原来是因为少了空格

终于成功，哭了

https://www.jianshu.com/p/dc82fcbe3cda 然后意识到自己搜索兆脊关键词有问题

这回终于对了

但问题是第一种转的，不知道应该是哪一种

plink官网： http://zzz.bwh.harvard.edu/plink/

plink功能：数据管理、质控、人群分层检测、关联分析-SNP、多marker预测、haplotype分析、拷贝升做数变异分析、异位显性分析、关联分析-基因、基因环境互作分析、meta分析等。

第一列：家庭编号family id

第二列：个体编号individual id

第三列：父亲编号paternal id

第四列：母亲编号maternal id

第五列：性别（1 male 2 female）

第六列：基因型genotype

第一列：染色体编号1-22 X Y 0(unplaced)

第二列：SNP rs编号

第三列：morgen遗传距离

第四列：碱基对位置bp

PLINK可以在ped和map文件谨虚的基础上通过创建binary ped file (.bed)来节省运行时间和存储空间。这种格式的文件将pedigree/phenotype information存储在.fam文件中，并且通过创建一个.bim文件来储存map信息（包括allele name等）。

在plink中可以通过以下命令创建binary ped文件：

以上命令行将创建出以下三个文件：

plink.bed ( binary file, genotype information )

plink.fam ( first six columns of mydata.ped )

plink.bim ( extended MAP file: two extra cols = allele names)

自行创建表型文件pheno.txt，可在其中存入多种表型或协变量。

前两列必须为FID和IID,后面是表型：

第一列：家庭编号

第二列：个人编号

其他列：表型数据

案例：

格式与表型文件相同。

案例：

方法：

结果文件1：个体.imiss

第一列：家庭编号

第二列：个体编号

第三列：缺失SNP数

第四列：number of non-obligatory missing genotype

第五列：缺失SNP占比

结果文件2：SNP.lmiss

第一列：SNP编号

第二列：染色体编号

第三列：缺失该SNP的个体数

第四列：number of non-obligatory missing genotype

第五列：缺失该SNP的个体数占比

方法：

结果文件：file.hwe

方法：

结吵晌衡果文件：

说明：设置阈值如果超过阈值则删除对应的SNP或个体

结果文件：

结果文件：outlier.nearest

结果文件：plink.assoc

结果文件：plink.fisher

结果文件：plink.model

通过回归矫正协变量。

结果文件：plink.assoc.linear/logistic

更多阅读：

1 GWAS 学习笔记 | 从理论到实践

2 全基因组关联分析（GWAS) — 群体结构

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12291799.html

GWAS -4 VCF格式文件转为Plink文件

发表评论

评论列表（0条）