我们比对完fastq文件后,我们可以拿到bam文件,但是bam文件非常的大,处理起来很不方便。如果我们只是想知道这些read都比对到了基因组的什么区域,以及基因组上每个区域有多少read存在,此时用wig/bw/bdg则会更加方便。
如果没有这些工具,其实对我们的bam文件,用samtools软件也可以很容易得到基因组区域的覆盖度和测序深度,比如:
这其实就是wig文件的雏形,但是wig文件会更复杂一点!
它不需要第一列了,因为全部是重复字段,只需要在每个染色体的第一行定义好染色体即可。下面我们来说明这些不同的格式是怎么记录测序深度的。
wig文件全称叫Wiggle Track Format,用来绘制基因组上的图形轨迹的文件格式。wig格式是较老的格式,用来显示密集且连续的数据,比如GC含量,概率分数,转录组数据等。
wig数据有两种类型:
variableStep:基因组window大小不定
fixedStep:基山哪乎因组window大小相同
声明行:
单词variableStep开头
染色体
window大小(span):基因组上window大小,默认为1
数据行:两列,分别包含染色体和测序深度值。
举例说明:
1.2 fixedStep格式wig
声明行:
单词fixedStep开头
染色体
起始坐标
步长(step):相邻window起点之间的距离
window大小(span):基因组上window大小,默认为1
数据行:一列,包含测序深度值。
举例说明:
上述介绍了wig数据部分,其实wig还有一部分是设置展示图形的参数,这里不做过多解释。
UCSC提供了一个wig文件: http://genome.ucsc.edu/goldenPath/help/examples/wiggleExample.txt
bigwig格式文件就没什么好讲的了,它就是wig格式文件的二进制压缩版本,这样更加节省空间。
我们只需要用UCSC提供的工具把自己的wig文件转换一下即可。
wigToBigWig: http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/wigToBigWig
BedGraph格式文件,它是BED文件的扩展,是4列的BED格式(正常BED文件只有3列或者6列),但是需要添加UCSC的Genome Browser工具里面显示的属性,但是一般就定义有限的几个属性缓陆即可。
3.1 属性设置
和bed文件基本一致,只是多了:
最后第1行的设置信息
第4列的测序深逗悉度信息
4.1 bam文件转化为bigwig
将bam文件转为bw文件,有很多工具可以实现这个目标,但是我们这里只记录deeptools:
4.2 wig/bw/bedgraph相互转换工具
bedGraphToBigWig :Convert a bedGraph file to bigWig format. http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bedGraphToBigWig
bigWigToBedGraph :Convert from bigWig to bedGraph format. http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigToBedGraph
bigWigToWig :Convert bigWig to wig. http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigToWig
bigWigSummary :Extract summary information from a bigWig file. http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigSummary
bigWigAverageOverBed :Compute average score of big wig over each bed, which may have introns. http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigAverageOverBed
bigWigInfo :Print out information about bigWig file. http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigInfo
分两步进行:将bigwig文件转为bdg文件,再将bdg文件转为bed文件
https://deeptools.readthedocs.io/en/develop/content/installation.html
此工具将读取BAM文件,并生成bigWig或bedGraph。覆盖率计算为每个bin的读取次数,bin为定义的连续读取的窗口大小。bamCoverage通过RPKM,CPM,BPM ,1x,RPGC等方法提供标准化。
较小的bin大小用于更高的分辨率,将亮戚桐覆盖范围标准化为1x小鼠基因组大小,在标准化步骤期间排除染色体X,以及扩展读取:
此工具根据映射的读取数比较两个bigWig文件。为了比较bigWig文件,将基因组划分为相同大小的区间,然后在每个敬坦区域中计算reads,然后给出数值。该值可以比率,比率的log2值,求和或者差值。
此工具依赖于上面步骤生成的bw文件,再给出bed或者gtf文件的区域(例如TSS),计算每个基因区域的结合得分,生成中间文件用以给plotHeatmap和plotProfiles作图。
这个工具根据区域得分画出热图,依赖于上面computeMatrix 产生的矩阵文件仔唤。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)