在之前的文章里介绍了如何通过直方图来可视化等位杂合碱基的比例来判断物种的染色体倍数性。在本文里会继续向下挖掘,介绍如何可视化染色体上的拷贝数变化(CNVs)。
和前文一样的 *** 作,使用包自带的数据。
我们需要去除物中过高和过低深度的数据。和前文的 *** 作一样,提取vcf文带蚂搭件里的深度数据"AD"。
然后过滤出10%~90%的数据,当然此处可以根据实际情况进行微调。然后对第一种出现频率最高的碱基进行可视化。(一般情况下一个位点蠢拿上会有两种碱基,具体参考前文。)
同样也可以对出现频率第二高的碱基进行同样的 *** 作,这里节约篇幅就省略了。
为了避免复杂的基于AD比例的模型假设,程序里设计了非参数估计法来计算峰值。计算完了以后可以直接对染色体进行拆分以后可视化进行校验。
根据尺寸把染色体分割成合适的大小
然后用 freq_peak 函数计算峰值。并对数据进行处理,去掉负数和Na值。
计算到此为止,可以可视化实际数据来验证计算的正确性。
仔细想一下,峰值计算的结果其实就是CNV的结果。这里根据窗口大小把染色体分成了若干段。(那么是不是可以给每一段 CDS进行细分然后计算出每一个CDS的具体数字呢????)
当然也可以把所有样本组合到一起。
VCF是Variant Call Format的简称,该格式文件是专门用于存储基因序列突变信息的一种文本文件,包括单碱基突变SNV、单核苷酸多态性SNP、InDel、拷贝数变异CNV和结构变异SV等,文件可以采取editplus或pilotedit(建议)打开查看岁指,其二进制存储格式是BCF。vcf文件后续可以用于多种分析,包括但不限于:进化树分析、群体结构分析、PCA分析、GWAS关联分析等。vcf文件格式如下:
VCF文件开头是整体的注释信息,以##作为起始,其后接FILTER、INFO、FORMAT等,其中##FILTER开头的行是vcf主体record中第七列缩写词的说明、##INFO开头的行注释vcf主体record中第8列的缩写字母、##FORMAT开头的行注释第九列的缩写字母。
在header之后,vcf主体的每一行是一条record,固定列有9列,以及在之后的第十列,它们分别是:
第一列:#CHROM,数塌染色体号
第二列:POS,在染色体上的位置
第三列:ID,突变名称,一般只有人类才有dbSNP编号,以rs开头
第四列:REF,参考基因组碱基类型,必须大写
第五列:ALT,变异碱基类型,大写,多个以逗号分隔,‘.'表示缺失
第乎毕配六列:QUAL,变异检测质量值,越高越可靠
第七列:FILTER,标记过滤结果的列:通过质控过滤标准的标记为‘PASS’,后续可用其他工具进行挑选过滤
第八列:INFO,附加信息列,附加信息的注释在header的##INFO中
第九列:FORMAT,后面信息的说明列
第十列开始为样品信息:GT=genotype、AD=碱基支持数量、DP=测序深度总和、PL=归一化后基因型的可能性、GQ=PL判读的基因型的质量值,其中当第二小的值小于99时,有必要怀疑基因型的可靠性。
vcf文件基本由bam文件生成,当得到排序并建立索引的bam文件后,可以使用多种工具例如bcftools、gatk、freebayes、lumpy、delly、varscan2等处理得到。
处理vcf格式文件的软件有许多种,包括:bcftools、vcftools、gatk、python_pyvcf、plink等。
———以上属个人理解与记录
可以下载一个TextForever软件,进行转码。
需要转换编码,下载一个TextForever的转化软件,大小只有550k,在PC上直接运行编码转换,将原VCF文肆圆件的Unicode转换为GB即可在电脑上查看了。如果需要PC和手机同步,用系统自带的开始——附件——通讯簿打开。
扩展资料:VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。
vcf基本上都是直接从bam格式文件中生成的,也就裂散塌是将bam文件中与参考序列比掘迟对异常的位点输出出来,当得到排序后并建立索引的bam之后,可以使用很多工具,例如bcftools,gatk,freebayes,lumpy,delly,varscan2等等工具。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)