linux vcf文件怎么打开_系统运维

具体 *** 作步骤如下：（一）VCFEdito1.双击运行VCF通讯录编辑器软件，点击文件菜单中的打开命令。2.d出打开通讯录文件的对话框，打开通讯录文件的位置，单击确定按钮。3.再单击文件菜单中的以明码另存通讯录为。

（自己）常用的文本文件的行处理命令

示例文件：test.vcf

1、head -n 10 test.vcf

head : 默认是提取文件的前10行，-n 参数可以设定选择文件的前n行

2、tial -n 10 test.vcf

tail : 默认是提取文件的末尾10行， -n 参数可以设定选择文件末尾的n行

3、sed -n '10,20p' test.vcf

sed -n ：随意选择需要查看的行

sed命令是一个面向行处理的编辑器，可以和正则表达式配合使用，附上较全面的sed命令使用教程。

https://man.linuxde.net/sed

4、awk 截取行的指定长度字符串

less test.gz |awk '{if(NR%2==1){print}else{print substr($1,1,75)}}' | gzip -c >test.part.gz

说明：对test.gz文件指定行截取75bp，原来是150bp

5、对n行的第三列求和，求平均值

grep -v ‘#’ test.vcf |sed -n '20,35p' |awk -F '\t' '{sum+=$3n++}END{print sum,sum/n}'

(linux 一行命令计算速度比Python快，简单计算喜欢用linux命令)

记得随时整理使用过的命令，没学过linux，靠着各种帖子，随时需要随时补给，有点懒。

什么是VCF文件：全称“The variant call format”，变体调用格式，是一种用于存储DNA多态性数据如snp、插入、删除和结构变体和丰富注释的通用格式。

什么是VCFtools：VCFtools是一个软件套件，它实现了处理VCF文件的各种工具，包括验证、合并、比较，还提供了一个通用的Perl API。

VCF格式：由标题部分（header）和数据部分（Body）组成。标头包含任意数量的元信息行，每一行都以字符' ## '开头，用TAB键分隔开的字段定义行（field definition line）以单个' # '字符开头。元信息头行提供了数据部分中使用的标记和注释的标准化描述。

字段定义行（field definition line）强制有八个列，相应的数据列代表

染色体 chromosome (CHROM)；

基于1的位置开始的变体 a 1-based position of the start of the variant (POS)；

变体的惟一标识符 unique identifiers of the variant (ID)；

参考等位基因 the reference allele(REF)；

替代非引用等位基因的逗号分隔列表 a comma separated list of alternate non-reference alleles(ALT)；

phred-scaled质量分数 a phred-scaled quality score(QUAL)；

网站过滤信息site filtering information (FILTER)；

一个额外的分号分隔的列表和用户可扩展的注释 a semicolon separated list of additional, user extensible annotation (INFO)。

GT，genotype，基因型，将等位基因编码为数字:0表示参考等位基因，1表示ALT列中列出的第一个等位基因，2表示ALT列中列出的第二个等位基因，以此类推。等位基因的数量表明样本的倍性，而分隔符表明相对于其他数据线，等位基因是阶段性的(' | ')还是非阶段性的(' / ')。

PS, phase set，表明具有相同PS值的基因型等位基因排列顺序相同。

DP，读取深度。

GL，genotype likelihoods，给定REF和ALT字段中定义的等位基因集，所有可能的基因型的基因型可能性。

GQ, genotype quality，在位点变异的情况下，基因型调用错误的概率。

欢迎分享，转载请注明来源：内存溢出

linux vcf文件怎么打开