偶然发现了这个神奇的网站(>
1什么是vcf文件
VCF是用于描述SNP(单个碱基上的变异),INDEL(插入缺失标记)和SV(结构变异位点)结果的文本文件。在GATK软件中得到最好的支持,当然SAMtools得到的结果也是VCF格式,和GATK的CVF格式有点差别。
2VCF的主体结构
##fileformat=VCFv42
##fileDate=20090805
##source=myImputationProgramV31
##reference=file:///seq/references/1000GenomesPilot-NCBI36fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=05;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:,
17330 T A 3 q10 NS=3;DP=11;AF=0017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3
1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0333,0667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
1230237 T 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2
1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3123456789101112131415161718192021222324
从范例上看,VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分。
值得注意的是,注释部分有很多对VCF的介绍信息。实际上不需要本文章,只是看看这个注释部分就完全明白了VCF各行各列代表的意义。
主体部分中每一行代表一个Variant的信息。
3怎么解释Variation
CHROM:表示变异位点是在哪个contig 里call出来的,如果是人类全基因组的话那就是chr1…chr22,chrX,Y,M。
POS: 变异位点相对于参考基因组所在的位置,如果是indel,就是第一个碱基所在的位置。
ID: variant的ID。 如果call出来的SNP存在于dbSNP数据库里,就会显示相应的dbSNP里的rs编号;若没有,则用’’表示其为一个novel variant。
REF和ALT: 在这个变异位点处,参考基因组中所对应的碱基和研究对象基因组(Variant)中所对应的碱基。
QUAL: Phred格式(Phred_scaled)的质量值,可以理解为所call出来的变异位点的质量值。表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;
计算方法:① Q=-10lgP,Q表示质量值;P表示这个位点发生错误的概率。
②Phred值Q = -10 lg (1-p) ,p为variant存在的概率;
通过计算公式可以看出值为10的表示错误概率为01,该位点为variant的概率为90%。
同理,当Q=20时,错误率就控制在了001。
FILTER: 使用上一个QUAL值来进行过滤的话,是不够的。理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“”的话,就说明没有进行过任何过滤。
INFO: 这一行是variant的详细信息,内容很多,以下再具体详述。
例子:
##fileformat=VCFv40
##FILTER= ##FORMAT= ##FORMAT= ##FORMAT= ##FORMAT= ##FORMAT= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##UnifiedGenotyperV2="analysis_type=UnifiedGenotyperV2 input_file=[TEXT CLIPPED FOR CLARITY]"
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878
chr1 873762 T G 523178 PASS AC=1;AF=050;AN=2;DP=315;Dels=000;HRun=2;HaplotypeScore=1511;MQ=9105;MQ0=15;QD=1661;SB=-153302;VQSLOD=-15473 GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G 393166 PASS AC=2;AF=100;AN=2;DB;DP=105;Dels=000;HRun=1;HaplotypeScore=159;MQ=9252;MQ0=4;QD=3744;SB=-115213;VQSLOD= 01185 GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T 7177 PASS AC=1;AF=050;AN=2;DB;DP=4;Dels=000;HRun=0;HaplotypeScore=000;MQ=9900;MQ0=0;QD=1794;SB=-4655;VQSLOD=-19148 GT:AD:DP:GQ:PL 0/1:1,3:4:2592:103,0,26
chr1 974165 rs9442391 T C 2984 LowQual AC=1;AF=050;AN=2;DB;DP=18;Dels=000;HRun=1;HaplotypeScore=016;MQ=9526;MQ0=0;QD=166;SB=-098 GT:AD:DP:GQ:PL 0/1:14,4:14:6091:61,0,2551234567
到现在,我们就可以解释上面的例子:
chr1:873762 是一个新发现的T/G变异,并且有很高的可信度(qual=523178)。
chr1:877664 是一个已知的变异为A/G 的SNP位点,名字rs3828047,并且具有很高的可信度(qual=393166)。
chr1:899282 是一个已知的变异为C/T的SNP位点,名字rs28548431,但可信度较低(qual=7177)。
chr1:974165 是一个已知的变异为T/C的SNP位点,名字rs9442391,但是这个位点的质量值很低,被标 成了“LowQual”,在后续分析中可以被过滤掉。
FORMAT 和 NA12878:这两行合起来提供了’NA12878′这个sample的基因型的信息。’NA12878′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。
Vcf文件看起来很复杂,挺吓人的样子,但是里面大部分都是一些tags,而这些tags基本上都是在VASR中过滤用的,能够理解每个tags的意思最好,如果实在不理解也就不用管了。其实最关键的信息也就是那么几列:
chr1 873762 T G [CLIPPED] GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G [CLIPPED] GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T [CLIPPED] GT:AD:DP:GQ:PL 0/1:1,3:4:2592:103,0,26
其中最后面两列是相对应的,每一个tag对应一个或者一组值,如:
chr1:873762,GT对应0/1;AD对应173,141;DP对应282;GQ对应99;PL对应255,0,255。
GT: 表示这个样本的基因型,对于一个二倍体生物,GT值表示的是这个样本在这个位点所携带的两个等位基因。0表示跟REF一样;1表示表示跟ALT一样;2表示第二个ALT。当只有一个ALT 等位基因的时候,0/0表示纯和且跟REF一致;0/1表示杂合,两个allele一个是ALT一个是REF;1/1表示纯和且都为ALT; The most common format subfield is GT (genotype) data If the GT subfield is present, it must be the first subfield In the sample data, genotype alleles are numeric: the REF allele is 0, the first ALT allele is 1, and so on The allele separator is ‘/’ for unphased genotypes and ‘|’ for phased genotypes
0 - reference call
1 - alternative call 1
2 - alternative call 2
AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和ALT碱基的reads数,相当于支持REF和支持ALT的测序深度。
DP: 覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)。
PL:对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L)。这三种指定的基因型(0/0,0/1,1/1)的概率总和为1。如果转换成支持该基因型概率(P)的话,由于L=-10lgP,那么P=10^(-L/10),因此,当L值为0时,P=10^0=1。因此,这个值越小,支持概率就越大,也就是说是这个基因型的可能性越大。
GQ: 表示最可能的基因型的质量值。表示的意义同QUAL。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越 大;计算方法:Phred值 = -10 log (1-p) p为基因型存在的概率。
举个例子说明一下:
chr1 899282 rs28548431 C T [CLIPPED] GT:AD:DP:GQ:PL 0/1:1,3:4:2592:103,0,261
在这个位点,GT=0/1,也就是说这个位点的基因型是C/T;GQ=2592,质量值并不算太高,可能是因为cover到这个位点的reads数太少,DP=4,也就是说只有4条reads支持这个地方的变异;AD=1,3,也就是说支持REF的read有一条,支持ALT的有3条;在PL里,这个位点基因型的不确定性就表现的更突出了,0/1的PL值为0,虽然支持0/1的概率很高;但是1/1的PL值只有26,也就是说还有10^(-26)=025%的可能性是1/1;但几乎不可能是0/0,因为支持0/0的概率只有10^(-103)=510-11。
VCF第8列的信息
该列信息最多了,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注释信息在VCF文件的头部注释中给出。以下是这些TAG的解释
AC,AF 和 AN:AC(Allele Count) 表示该Allele的数目;AF(Allele Frequency) 表示Allele的频率; AN(Allele Number) 表示Allele的总数目。对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为05(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。
DP: reads覆盖度。是一些reads被过滤掉后的覆盖度。
Dels: Fraction of Reads Containing Spanning Deletions。进行SNP和INDEL calling的结果中,有该TAG并且值为0表示该位点为SNP,没有则为INDEL。
FS:使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值。该值越小越好。一般进行filter的时候,可以设置 FS < 10~20。
HaplotypeScore: Consistency of the site with at most two segregating haplotypes
InbreedingCoeff: Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation
MLEAC: Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed
MLEAF: Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed
MQ: RMS Mapping Quality
MQ0: Total Mapping Quality Zero Reads
MQRankSum: Z-score From Wilcoxon rank sum test of Alt vs Ref read mapping qualities
QD: Variant Confidence/Quality by Depth
RPA: Number of times tandem repeat unit is repeated, for each allele (including reference)
RU: Tandem repeat unit (bases)
ReadPosRankSum: Z-score from Wilcoxon rank sum test of Alt vs Ref read position bias
STR: Variant is a short tandem repeat
VCF (Variant Call Format) version 41
The VCF specification is no longer maintained by the 1000 Genomes Project The group leading the management and expansion of the format is the Global Alliance for Genomics and Health Data Working group file format team, >
佳学基因,人的基因信息解读和应用专家。人的听力受很多个基因的影响。每一个基因又由数以百万计的位点组成。根据佳学基因的基因检测标准。一个基因检测应当清楚列明所检测的基因的名称,一般由字母和数字组成,其二是所检测的具体位置坐标,第三是在该位置上的基因序列,第四,这个位置上的基因序列对于健康和疾病是怎样的影响。建议收集后以上四个信息后,查询佳学基因人的基因信息与疾病表征数据库。
一、名词解释:
1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用
计算机技术,研究生物学数据的科学。
2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。
3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。
5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性
,而将它们按照一定的规律排列。
6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二
次数据库中的注释信息进行关键词匹配查找。
7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核
酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。
二、简答题:
1、分子生物学的三大核心数据库是什么?它们各有何特点?
GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数
据库;
2、简述生物信息学的发生和发展。
20世纪50年代,生物信息学开始孕育;
20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来;
20世纪70年代,生物信息学的真正开端;
20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析
方法;
20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库;
20世纪90年代后,HGP促进生物信息学的迅速发展。
3、生物信息学的主要方法和技术是什么?
数学统计方法 ;动态规划方法 ;机器学习与模式识别技术;数据库技术及数据
挖掘 ;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学
计算;生物分子的计算机模拟;因特网(Internet)技术
4、常见的DNA测序方法有哪些?各有何技术特点和优缺点?
Maxam-Gilbert DNA化学降解法:优点:可测完全未知序列及CG富含区;缺点: ***
作繁琐;
Sanger双脱氧链终止法:优点:简便,可测较长片段;缺点:需已知部分序列或
加接头;
焦磷酸测序:优点:廉价、高通量;缺点:一次测序片段短。
5、分子生物学数据库有哪些类型?各有何特点?
基因组数据库:基因组测序
核酸序列数据库:核酸序列测定
一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结
构数据库:X-衍射和核磁共振
特点:数量少,容量大,更新快
二次数据库:上述四类数据库和文献资料为基础构建
特点:数量多,容量小,更新慢
6、简述NCBI Entrez系统的功能。
高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、
突变数据、探针序列、单核苷酸多态性等数据。
7、简述NCBI BLAST的功能和种类。
序列相似性比对工具;
对核酸:普通blastn,对高度相似序列megablast;
对蛋白质:普通blastp,对保守域rpsblast;
对人工翻译序列:核酸翻译序列对蛋白质序列blastx,蛋白质对翻译序列tblastn
,核酸翻译序列对翻译序列tblastx;
其它:基因组blast,基因表达序列搜索GEO blast,序列两两比对……
8、举例说明生物信息学软件的应用。
9、生物芯片制作和分析过程中可以应用哪些生物信息学软件。
三、论述题:
1、什么是生物信息学?生物信息学有哪些主要应用领域?
生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研
究生物学数据的科学。
生物分子数据的收集与管理;数据库搜索及序列比较;基因组序列分析;基因表
达数据的分析与处理;蛋白质结构预测。
2、生物信息学在医药领域有什么应用?
辅助诊断(遗传病,HLA分型);
研究药物作用机制,辅助新药物开发和制造。
3、人类基因组计划中主要使用的那些生物信息学手段?它们对人类基因组计划发
挥了哪些重大作用?
单一测序结果判读;contig和chromosome拼接;识别基因区及其调控区;寻找基
因相互作用的时空关系;
4、试述蛋白质二级结构预测的主要策略和方法。
策略:
目标:判断每一段中心的残基是否处于a螺旋、b折叠、b转角(或其它状态)之一
的二级结构态,即三态。
a、理论分析法(从头计算法):通过理论计算(分子力学、分子动力学等)进行
结构预测。优点:不需要经验数据,由一级结构推测高级结构
缺点:天然和未折叠蛋白间能级差很小 (kcal/mol);蛋白质可能的构想空间庞大
,针对蛋白质折叠的计算量巨大;计算模型中力场参数不准确。
b、统计方法:对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,
进而根据映射模型对未知结构的蛋白质直接从氨基酸预测结构。
经验性方法:根据一定序列形成一定结构的倾向进行结构预测。通过对已知结构
的蛋白质进行统计分析,发现各种氨基酸形成不同二级结构的倾向,从而形成一
系列关于二级结构预测的规律。
结构规律提取方法:从蛋白质结构数据库中提取关于蛋白质结构形成的一般性
规律,指导建立未知结构的蛋白质模型。
同源模型化方法:通过同源序列分析或模式匹配,预测蛋白质的空间结构或结
构单元。
方法:
1、Chou-Fasman方法;(基于单个氨基酸残基统计的经验参数方法,由Chou 和
Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结
构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。)2、
GOR方法;(是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连
串的信息值来处理;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而
且考虑相邻残基种类对该位置构象的影响)3、基于氨基酸疏水性的方法;4、最
邻近方法;5、人工神经网络方法;6、综合方法:7、利用进化信息预测蛋白质的
最近关于南非发现的新型变异毒株奥密克戎讨论非常火爆,该变异毒株传播力非常强,引起全球关注,那么奥密克戎变异株出现的原因是什么?为什么会出现奥密克戎变异株?下面我为大家带来奥密克戎变异株出现的原因,感兴趣的小伙伴一起来看一下吧。
奥密克戎变异株出现的原因是什么?
针对新冠病毒奥密克戎变异株,国家卫生健康委组织中国疾控中心专家就有关问题进行了解答。根据新冠病毒数据库GISAID目前共享的信息显示,新冠病毒奥密克戎变异株的突变位点数量明显多于近2年流行的所有新冠病毒变异株,尤其在病毒刺突(Spike)蛋白突变较多。推测其出现的原因可能有以下三种情况:
1、免疫缺陷患者感染新冠病毒后,在体内经历了较长时间的进化累积了大量突变,通过偶然机会传播;
2、某种动物群体感染新冠病毒,病毒在动物群体传播过程中发生适应性进化,突变速率高于人类,随后溢出传染到人类;
3、该变异株在新冠病毒基因组变异监测落后的国家或地区持续流行了很长时间,由于监测能力不足,其进化的中间代次病毒未能被及时发现。
以上就是奥密克戎变异株出现的原因是什么介绍,希望对大家有所帮助。
以上就是关于pubmed检索策略全部的内容,包括:pubmed检索策略、blast序列比对结果如何做表、2021-03-15 DepMap数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)