利用samtools将sam格式的文件与bam格式的文件进行相互转换

利用samtools将sam格式的文件与bam格式的文件进行相互转换,第1张

bowtie2是当今流行的序列比对软件,其输出结果为sam后缀名的文件

sam格式是一种通用的比对格式,用来存储reads到参考序列的比对信息SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。

主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多

重比对结果

而bam格式文件可以理解为时sam格式文件的二进制保存

在进行下一步的转录本组装时要用到cufflinks软件,而cufflinks只接受bam格式的文件作为输入,所以我们要把sam格式的文件转换为bam格式的文件以便进行下一步 *** 作 samtools可以有效地帮我们解决这个问题

samtools view [-bhuHS] [-t in.reList] [-o output] [-f repFlag] [-F skipFlag] [-q minMapQ] [-l library]

[-r read]

-b 以BAM格式输出,可以用于samtools的后续分析

-u 以未压缩的BAM格式输出,可以节约时间,一般在管道执行时使用

-h 在结果中包含头header

-H 只输出头  -S 输入文件为SAM格式,如果确实@SQ头,则需要-t选项

sam转化为bam

samtools view -bS aln.sam >aln.bam

bam转化为sam

samtools view -h -o aln.sam aln.bam

另外在利用cufflinks对转录本进行拼接时,cufflinks还需要我们把转换后的bam格式文件进行排序

samtools sort aln.bam >aln.sorted_bam

建议使用tophat2+cufflinks的软件组合进行转录组的比对和分析

具体教程会在后面更新

在转录组数据与参考基因组进行比对后,得到sam文件,后续分析需要将sam转换为bam,这里用到的工具是SAMtools。

序列比对 —— Hisat2 - (jianshu.com)

SAMtools的主要功能是读取、写出、编辑、查看SAM/BAM/CRAM格式的数据文件。

SAMtools官方网站:

http://www.htslib.org/

链接:

http://www.htslib.org/download/

安装:

这里看到基础命令主要分为六个模块,分别为索引、编辑、文件 *** 作、统计、视图以及其他。这里想要SAM格式转为BAM格式,主要用到的是Viewing模块中的view。

说明书:

http://www.htslib.org/workflow/fastq.html

在老版本1.9的samtools中,需要用-s 指定sam文件,1.14中不需要指定。

samtools view命令完成sam转为bam。

-@8:8个线程

-b:输出格式bam文件 >:输出文件名

SAM 是用来存储核苷酸 序列比对信息 的文件格式。SAM Tools 工具包提供各种工具 处理SAM文件 。包括 功能 :sorting, merging, indexing and generating alignments。安装教程见 https://www.jianshu.com/p/53de170927a7

安装过程中有许多 依赖的库 需要安装的,可能每个人缺的库都不尽相同,不懂的就百度一下吧:

装好之后有如下这么多命令,下面我们只介绍samtools:

是view的一个应用-b指定输出文件为bam, -S 指定输入文件为sam

随机取出bam文件的某一部分出来, 必须要有index文件 ,否则会报错: [bam_index_load] fail to load BAM index. [main_samview] random alignment retrieval only works for indexed BAM files.

关于view更详细的参数说明

-h是将bam文件中的 header也加入到sam文件 中。 比如htseq-count老版本只接受sam文件

注意

指查看染色体一上的第33667个碱基。

只能对 bam文件 进行sort, 不能对sam文件。

假如in1.bam, in2.bam, in3.bam是某个某样本的三个重复,我们可以将他们合并为一个bam文件。

如果想对 部分合并 ,如至合并一号染色的上的bam文件合并,chr1必须为序列的名字,一号染色体序列的名字为Chr1,那么就应为 -R Chr1

注意 :要合并的bam文件,必须有对应的index文件。

命令:

结果如下:


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12114075.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存