如何去获得plink的ped和map文件

如何去获得plink的ped和map文件,第1张

BED文件格式是一个可变方式的数据线,用来描述注释的数据。建议用plink转换为.map和.ped格式,其中ped文件中的数据就是想要的。用拦巧镇EditPlus打开即可。或者用excel可以打开。BED线有3个要求的字段和9个额外的字段。每条线的字段数目必须是任意单条数据的在注释上一致。可选字段的序试结合低数字的字段必须流行如果高位字段被使用。首先是三个要求的BED字段:1.chrom,染色体或scafflold的名字(egchr3,chrY,chr2_random,scaffold0671).2.chromStart染简粗色体和scaffold的起始位置,宽源第一个染色体的位置是0.3.chromEn染色体和scaffold的结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart=0.chromEnd=100,碱基的数目是0-999个额外的可选BED字段是:1.name定义BED的名字2.score0到1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定现示灰度水平,数字越大,灰度越高。下面的这个表格显示GenomeBrowser3.strand定义链的''+”或者”-”4.thickStart开始的位置,这个特征是画thickly(例如,在开始的编码显示基因的显示5.thickEnd结束的位置,这个特征是画thickly例如,在结束的编码显示基因的显示 6.itemRGBAnAGB值的形式,R,G,B(eg.255,0,0),如果tracklineitemRgb属性是设置为'On”,这个RBG值将决定数据的显示的颜色在BED线。注意,它推荐简单的颜色方案(eightcolororless)是用作这个属性避免颜色资源在基因组浏览器上过多7.blockCountBED线在exon的block数目8.blockSize用逗号分割blocksize,这个item的列表对应于BlockCount9.blockStarts-用逗号分割的列表,所有的blockStart位置应该被计算相关于chromStart,这个数字的项应该对应于blockCount

plink官网: http://zzz.bwh.harvard.edu/plink/

plink功能:数据管理、质控、人群分层检测、关联分析-SNP、多marker预测、haplotype分析、拷贝升做数变异分析、异位显性分析、关联分析-基因、基因环境互作分析、meta分析等。

第一列:家庭编号family id

第二列:个体编号individual id

第三列:父亲编号paternal id

第四列:母亲编号maternal id

第五列:性别(1 male 2 female)

第六列:基因型genotype

第一列:染色体编号1-22 X Y 0(unplaced)

第二列:SNP rs编号

第三列:morgen遗传距离

第四列:碱基对位置bp

PLINK可以在ped和map文件谨虚的基础上通过创建binary ped file (.bed)来节省运行时间和存储空间。这种格式的文件将pedigree/phenotype information存储在.fam文件中,并且通过创建一个.bim文件来储存map信息(包括allele name等)。

在plink中可以通过以下命令创建binary ped文件:

以上命令行将创建出以下三个文件:

plink.bed ( binary file, genotype information )

plink.fam ( first six columns of mydata.ped )

plink.bim ( extended MAP file: two extra cols = allele names)

自行创建表型文件pheno.txt,可在其中存入多种表型或协变量。

前两列必须为FID和IID,后面是表型:

第一列:家庭编号

第二列:个人编号

其他列:表型数据

案例:

格式与表型文件相同。

案例:

方法:

结果文件1:个体.imiss

第一列:家庭编号

第二列:个体编号

第三列:缺失SNP数

第四列:number of non-obligatory missing genotype

第五列:缺失SNP占比

结果文件2:SNP.lmiss

第一列:SNP编号

第二列:染色体编号

第三列:缺失该SNP的个体数

第四列:number of non-obligatory missing genotype

第五列:缺失该SNP的个体数占比

方法:

结果文件:file.hwe

方法:

结吵晌衡果文件:

说明:设置阈值如果超过阈值则删除对应的SNP或个体

结果文件:

结果文件:outlier.nearest

结果文件:plink.assoc

结果文件:plink.fisher

结果文件:plink.model

通过回归矫正协变量。

结果文件:plink.assoc.linear/logistic

更多阅读:

1 GWAS 学习笔记 | 从理论到实践

2 全基因组关联分析(GWAS) — 群体结构


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/12204015.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存