win7把多个vcf格式文件变成一个的方法_教程

近期很多小伙伴说win7系统从outlook或者是其他软件导出的联系人都是一个个的VCF格式，不方便管理和传输。有什么方法可以把多个vcf格式文件变成一个？方法是有的，下面我总结 *** 作方法给大家。

具体方法如下：

1、在D盘下面建立一个文件夹最好是英文名字的；例如：lianxi；

2、全部选择单个的vcf文件剪切或者是复制到刚才建立的文件夹下面；

3、开始---运行--cmd 回车进入命令行界面；

4、然后输入d: 回车进入D盘下面；

5、再输入cd lianxi 进入到lianxi文件夹下面；

6、此时的光标应该是d:lianxi；

7、再输入copy /b *.vcf all.vcf；回车，此目录下就建立了一个all.vcf的文件包含所有的联系人了。

简单几个 *** 作之后，我们发现多个vcf格式文件变成一个了，这样方便我们管理和 *** 作。

VCF是Variant Call Format的简称，该格式文件是专门用于存储基因序列突变信息的一种文本文件，包括单碱基突变SNV、单核苷酸多态性SNP、InDel、拷贝数变异CNV和结构变异SV等，文件可以采取editplus或pilotedit(建议)打开查看，其二进制存储格式是BCF。vcf文件后续可以用于多种分析，包括但不限于：进化树分析、群体结构分析、PCA分析、GWAS关联分析等。vcf文件格式如下：

VCF文件开头是整体的注释信息，以##作为起始，其后接FILTER、INFO、FORMAT等，其中##FILTER开头的行是vcf主体record中第七列缩写词的说明、##INFO开头的行注释vcf主体record中第8列的缩写字母、##FORMAT开头的行注释第九列的缩写字母。

在header之后，vcf主体的每一行是一条record，固定列有9列，以及在之后的第十列，它们分别是：

第一列：#CHROM，染色体号

第二列：POS，在染色体上的位置

第三列：ID，突变名称，一般只有人类才有dbSNP编号，以rs开头

第四列：REF，参考基因组碱基类型，必须大写

第五列：ALT，变异碱基类型，大写，多个以逗号分隔，‘.'表示缺失

第六列：QUAL，变异检测质量值，越高越可靠

第七列：FILTER，标记过滤结果的列：通过质控过滤标准的标记为‘PASS’，后续可用其他工具进行挑选过滤

第八列：INFO，附加信息列，附加信息的注释在header的##INFO中

第九列：FORMAT，后面信息的说明列

第十列开始为样品信息：GT=genotype、AD=碱基支持数量、DP=测序深度总和、PL=归一化后基因型的可能性、GQ=PL判读的基因型的质量值，其中当第二小的值小于99时，有必要怀疑基因型的可靠性。

vcf文件基本由bam文件生成，当得到排序并建立索引的bam文件后，可以使用多种工具例如bcftools、gatk、freebayes、lumpy、delly、varscan2等处理得到。

处理vcf格式文件的软件有许多种，包括：bcftools、vcftools、gatk、python_pyvcf、plink等。

———以上属个人理解与记录

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/7943136.html

win7把多个vcf格式文件变成一个的方法

发表评论

评论列表（0条）