修改BAM文件中的染色体名字

修改BAM文件中的染色体名字,第1张

在处理ChIP-seq数据的时候,遇到这样一个问题:前期我的FASTA和GTF文件染色体的名字是1,2,322这样的,但后期某些分析过程要求染色体名称必须以chr开头,比如用来找enhancer/super enhancer的ROSE。这时候就需要对BAM文件进行修改,具体方法如下:

只需要修改BAM文件的header部分就可以,方便又快捷。关于为什么只需要修改BAM文件的header,我在biostar上看到有个回答非常棒,引用一下:

>bam文件在进行后续分析前,需要进行排序,samtools的安装见文章:
sam文件转换为bam文件——SAMtools - (jianshucom)

默认是按序列在fasta文件中的顺序(即header)和序列从左往右的位点排序。

-@8:8个线程
-o:输出文件

按read name排序:

这里发现,原始的bam文件,和sortbam以及namesortbam文件的大小不一致,并且sortbam小很多,检查三个文件的行数:

行数一致,没有问题。常用的是默认排序,即按染色体顺序进行排序。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10561499.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-09
下一篇 2023-05-09

发表评论

登录后才能评论

评论列表(0条)

保存