sam格式是一种通用的比对格式,用来存储reads到参考序列的比对信息SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。
主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多
重比对结果
而bam格式文件可以理解为时sam格式文件的二进制保存
在进行下一步的转录本组装时要用到cufflinks软件,而cufflinks只接受bam格式的文件作为输入,所以我们要把sam格式的文件转换为bam格式的文件以便进行下一步 *** 作 samtools可以有效地帮我们解决这个问题
samtools view [-bhuHS] [-t in.reList] [-o output] [-f repFlag] [-F skipFlag] [-q minMapQ] [-l library]
[-r read]
-b 以BAM格式输出,可以用于samtools的后续分析
-u 以未压缩的BAM格式输出,可以节约时间,一般在管道执行时使用
-h 在结果中包含头header
-H 只输出头 -S 输入文件为SAM格式,如果确实@SQ头,则需要-t选项
sam转化为bam
samtools view -bS aln.sam >aln.bam
bam转化为sam
samtools view -h -o aln.sam aln.bam
另外在利用cufflinks对转录本进行拼接时,cufflinks还需要我们把转换后的bam格式文件进行排序
samtools sort aln.bam >aln.sorted_bam
建议使用tophat2+cufflinks的软件组合进行转录组的比对和分析
具体教程会在后面更新
1. fasta =>sam
2. fasta <= sam
1. sam =>bam
2. sam <= bam
1. fasta =>bam
2. fasta <= bam
在转录组数据与参考基因组进行比对后,得到sam文件,后续分析需要将sam转换为bam,这里用到的工具是SAMtools。
序列比对 —— Hisat2 - (jianshu.com)
SAMtools的主要功能是读取、写出、编辑、查看SAM/BAM/CRAM格式的数据文件。
SAMtools官方网站:
http://www.htslib.org/
链接:
http://www.htslib.org/download/
安装:
这里看到基础命令主要分为六个模块,分别为索引、编辑、文件 *** 作、统计、视图以及其他。这里想要SAM格式转为BAM格式,主要用到的是Viewing模块中的view。
说明书:
http://www.htslib.org/workflow/fastq.html
在老版本1.9的samtools中,需要用-s 指定sam文件,1.14中不需要指定。
samtools view命令完成sam转为bam。
-@8:8个线程
-b:输出格式bam文件 >:输出文件名
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)