具体方法如下:
1、在D盘下面建立一个文件夹最好是英文名字的;例如:lianxi;
2、全部选择单个的vcf文件剪切或者是复制到刚才建立的文件夹下面;
3、开始---运行--cmd 回车 进入命令行界面;
4、然后输入d: 回车 进入D盘下面;
5、再输入cd lianxi 进入到lianxi文件夹下面;
6、此时的光标应该是d:lianxi;
7、再输入copy /b *.vcf all.vcf;回车,此目录下就建立了一个all.vcf的文件包含所有的联系人了。
简单几个 *** 作之后,我们发现多个vcf格式文件变成一个了,这样方便我们管理和 *** 作。
VCF是Variant Call Format的简称,该格式文件是专门用于存储基因序列突变信息的一种文本文件,包括单碱基突变SNV、单核苷酸多态性SNP、InDel、拷贝数变异CNV和结构变异SV等,文件可以采取editplus或pilotedit(建议)打开查看,其二进制存储格式是BCF。vcf文件后续可以用于多种分析,包括但不限于:进化树分析、群体结构分析、PCA分析、GWAS关联分析等。vcf文件格式如下:
VCF文件开头是整体的注释信息,以##作为起始,其后接FILTER、INFO、FORMAT等,其中##FILTER开头的行是vcf主体record中第七列缩写词的说明、##INFO开头的行注释vcf主体record中第8列的缩写字母、##FORMAT开头的行注释第九列的缩写字母。
在header之后,vcf主体的每一行是一条record,固定列有9列,以及在之后的第十列,它们分别是:
第一列:#CHROM,染色体号
第二列:POS,在染色体上的位置
第三列:ID,突变名称,一般只有人类才有dbSNP编号,以rs开头
第四列:REF,参考基因组碱基类型,必须大写
第五列:ALT,变异碱基类型,大写,多个以逗号分隔,‘.'表示缺失
第六列:QUAL,变异检测质量值,越高越可靠
第七列:FILTER,标记过滤结果的列:通过质控过滤标准的标记为‘PASS’,后续可用其他工具进行挑选过滤
第八列:INFO,附加信息列,附加信息的注释在header的##INFO中
第九列:FORMAT,后面信息的说明列
第十列开始为样品信息:GT=genotype、AD=碱基支持数量、DP=测序深度总和、PL=归一化后基因型的可能性、GQ=PL判读的基因型的质量值,其中当第二小的值小于99时,有必要怀疑基因型的可靠性。
vcf文件基本由bam文件生成,当得到排序并建立索引的bam文件后,可以使用多种工具例如bcftools、gatk、freebayes、lumpy、delly、varscan2等处理得到。
处理vcf格式文件的软件有许多种,包括:bcftools、vcftools、gatk、python_pyvcf、plink等。
———以上属个人理解与记录
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)