Fastq BAM VCF

Fastq BAM VCF,第1张

生信分析的旅程大致是,接收fastq,获得bam,然后vcf

FASTQ文件是什么?通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ

BAM文件是什么?

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section) 头文件:每一行都用 @ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息 比对结果:BAM的核心,包含以下几个内容

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息

这样我们就可以解释倒数第四行的内容: 20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了 q10 ,在后续分析中可以被过滤掉 其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译

FASTQ记录原始序列和测序质量,BAM记录序列比对信息,VCF记录变异信息

群体遗传大部分的分析大部分基于VCF文件,所以得到一个高质量的VCF文件很有必要。在此记录一下从重测序的fastq文件提取SNP,过滤VCF的一系列流程。

之前的做法还是一步一步慢慢来,但涉及到更多的个体数据就很麻烦,因此写了一个小小的sh脚本,也算是节约时间吧。

废话不多说,上sh~

call_snp.sh 每一个小步骤需要改的地方不多,内存和线程根据服务器配置和需求改就行

every_chr_gvcf.py (脚本小垃圾 凑活看 能用但难看)

用到的软件:

Samtools

bwa

fastp

gatk 强烈推荐v 4.0

bedtools

后续步骤,且听下回。

FASTQ是储存原始测序数据的一种文本文件格式,包含核酸序列以及对应的质量值。

每个read有四行:第一行记录测序所用仪器以及read测序时所在通道坐标信息;第二行是ATGC碱基序列,缺省时用N表示;第三行+号;第四行是对应碱基的质量值。

第四行这个质量值(Phred或者Q-score),是用一个整数表示碱基的错误率,P是错误率,

在序列中Q值用ASCII字符表示. ASCII字符与对应的整数转换如下:

SAM文件全程Sequence Alignment Map,是储存生物序列比对到参考基因组的一种数据格式。

samtools view -H命令可以浏览带有@的header的信息不带-H直接是read alignment的信息。

vcf文件是一种储存DNA多态性(SNP、插入、缺失、结构变异)的一种数据格式。

跟SAM文件类似的存储结构,也是header+body。不同软件提供的vcf文件INFO大同小异,主体都是一样:

前八列是必须项,包括染色体CHROM, 变异在染色体上的位置信息POS, 变异的标识符ID, 参考等位基因REF, 逗号分割的其他非参考等位基因ALT, 质量值QUAL, 位点过滤信息FILTER以及变异注释信息INFO。

如果有样本信息,第九列则为FORMAT,从第十列开始则是每个样本的信息。

在FORMAT中的一些关键字,INFO里有时也会有。一般header里都会存储FORMAT出现的所有缩写的解释,但也有时拿到数据时header里没有找到对应的解释,可能是由于在数据过滤的过程中没有保留所有的header信息。

以上是遇到过的一些vcf出现的关键字,也有只含有GT基因型信息的, 它以数字编译等位基因,0是ref,1是alt, 2是第二个ALT... 等位基因的数量表示该生物样本的染色体倍数,分隔符表示等位基因是否分型过phased (‘|’)或者unphased (‘/’)。根据不同分析可能依赖侧重的信息不同,就不一一列举了,有文已经解释的比较清楚,可以按需查询。

Quality (Phred) scores

NGS数据格式02-SAM/BAM最详细解读 - 知乎

variant call format and VCFtools | Bioinformatics | Oxford Academic

vcf文件与vcftools(一) -

VCF (Variant Call Format) version 4.0 | 1000 Genomes


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/8097278.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存