如何把excel转成vcf的方法

如何把excel转成vcf的方法,第1张

在 Excel 中经常录入好数据以后都需要转成VCF格式,或许有的朋友还不会怎么转换成VCF,具体该怎么做呢?接下来是我为大家带来的如何把excel转成vcf的 方法 ,供大家参考。

如何把excel转成vcf的方法:

Excel转VCF步骤1:首先将EXCEL的里面的格式通讯录做成Outlook Experss所识别的.txt文档格式,并导入Outlook Experss电话簿中。将Excel表中内容调整如下:

Excel转VCF步骤2:将表中内容复制到txt文档中

Excel转VCF步骤3:再将txt文档内容复制到Word中

Excel转VCF步骤4:将Outlook Express所识别的格式导出,以制作其所识别的txt格式(Outlook Express所在位置如下图)

Excel转VCF步骤5:自建一条记录,并将其导出成txt格式文本

Excel转VCF步骤6:导出步聚,选择“文本文件(以逗号分隔)”,导出

Excel转VCF步骤7:选择txt文档格式保存

Excel转VCF步骤8:复制所导出文件中的分隔符号“,”

Excel转VCF步骤9:使用Word中的批量替代功能,将内容转成所需格式和字符

Excel转VCF步骤10:将Word中的通讯录内容,复制到txt文档中,并保存!(注意:txt文档首行,为导入时的识别字段,勿乱改!)

Excel转VCF步骤11:将outlook express通讯簿的内容清空

Excel转VCF步骤12:打开通讯簿“文件”-“导入”-“ 其它 通讯簿”

Excel转VCF步骤13:选择“文本文件(以逗号分隔)”选项导入所保存的txt文档

Excel转VCF步骤14:导入中

Excel转VCF步骤15:导入成功后关闭outlook express

Excel转VCF步骤16:再将outlook express的电话簿导入到outlook 2007的联系人中。并从此中导出.vcf格式文件打开outlook2007,并打开导入和导出向导,并选择“从另一程序或文件导入”按下图选择

Excel转VCF步骤17:选择“Outlook Express...”项,并一直选择“下一步”

Excel转VCF步骤18:直至选择“是”

Excel转VCF步骤19:等待导入中

Excel转VCF步骤20:成功导入后图片

Excel转VCF步骤21:转换名片发送的形式导成vcf格式在联系人内容中,CTR+A全选所有数据,单击右键,并选“作为名片发送”

Excel转VCF步骤22:效果如下:

Excel转VCF步骤23:将附件全选复制:

最近做的项目要对 reference genome 基于突变进行一些modify,制作 personalized genome 或者说是 psuedo-genome 伪基因组。其实就是把某个测序样本call出来的 SNP &&indel 替换掉参考基因组对应位置的碱基。

自己可以编写脚本修改,使用 Perl 中的 substr 来进行单个位点修改,把坐标按照从后往前的顺序,而不是从前到后。

其实有蛮多工具可以做这个的,在这里安利一下,大家可以使用体验一下。

GATK作为通用的变异检测的软件,其中有很多有用的工具,这里介绍一下 FastaAlternateReferenceMaker : Create an alternative reference by combining a fasta with a vcf.

准备好检测的 VCF 文件,参考基因组FASTA文件,使用如下命令:

这里的 -L 参数可以多单个基因或者基因组一段区域进行替换。

--snp-mask 参数,当构建时 psuedo-genome.fa 时,该VCF文件中的SNP用作掩码(在序列中插入N)。

运行结束,个人的参考基因组就构建好了,一般制作 psuedo-genome.fa 就是为了消除变异带来的影响,部分其他参数可以到gatk官网查阅。另外 FastaAlternateReferenceMaker 使用简单的 indel ,当VCF文件包含复杂的位点时(complex substitutions),会忽略。

PS:

perEditor 用于分析phased SNPs/indels,意味着VCF文件中的 GT 是 0|1/1|1/1|2 ,而不是我们常见的 0/1 这种,明确知道变异是在母本还是父本染色体上,第一个是母本,第二个是父本,使用方式如下:

这里对参数进行一下解释:

allele 两个选项 mother|father ,代表等位基因来自于哪一个亲本;

indivicual ,整数,这个是因为有一些VCF文件中不止包含一个样本的突变信息,参数代表选择第几个样本的突变来进行创建 personalized genome , 1 代表第一个样本;

perEditor_ra ,允许用户把染色体重排信息考虑到创建个性化参考基因组中,一样只服务于phased的数据,另外还需要把涉及染色体重排的染色体放在一个目录下:

这里的 individual 和 allele 参数和 perEditor 是一样的含义;

rearrangements_t.vcf ,染色体重排注释结果,vcf format version 4.1;

chr_length_t.bed ,文件中包含基因组每一条染色体的长度,即核苷酸总数,格式如下:

centromeres_t.bed ,文件中包含每条染色体的着丝粒位置的文件,着丝粒坐标用于确定新染色体的身份,当两条染色体由于重排而合并时,新染色体将按照着丝粒来源的名称来命名,继承两个着丝粒,其名称则包含两个亲本染色体的名称,文件格式如下:

bed文件和vcf文件位于同一个工作目录下,最终生成的新的染色体命名中添加了 new :

g2gtools 通过将SNP和indels整合到参考基因组中来创建自定义基因组,提取感兴趣的区域(例如外显子或转录本),并在两个基因组之间转换文件(bam,gtf,bed)的坐标。 与其他 liftover 工具不同, g2gtools 不会丢弃掉落在indel区域上的alignments。 版本0.2可以创建个人二倍体基因组。 新版本仍然将个人基因组坐标上的二倍体比对转换回参考基因组,因此我们可以比较种群样本之间的比对。

先激活virtual environment:

创建自定义的基因组,需要下列信息:

下面是 *** 作流程:

vcf2diploid 通过将phased的变异整合到参考基因组中,从vcf文件创建二倍体基因组。

samtools 、 bcftools 和 vcfutils.pl 三个程序联合使用,从 BAM 文件开始 *** 作,到获得新的参考基因组:

FastaAlternateReferenceMaker

perEditor A tool to create personalized genome sequences

g2gtools creates custom genomes by incorporating SNPs and indels into reference genome

Welcome to g2gtools’ documentation

Personal Genome Constructor (vcf2diploid tool)

construct DNA sequence based on variation and human reference


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/11649071.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存