GenomicAlignments 可以高效储存和 *** 作短序列比对 (short genomic alignments) ,包括 read counting, computing the coverage, junction detection, 以及比对中核苷酸含量的 *** 作。包内有 GAlignments , GAlignmentPairs , GAlignmentsList 三种对象。
从 BAM 文件得到已比对的 reads 和其序列。
这时用到了一宏孝锋个数据包: RNAseqData.HNRNPC.bam.chr14 .
调用 Rsamtools 包内的函数 quickBamFlagSummary() 查看 BAM 文件中的序列是单端或双端比对。
在利用 readGAlignments() 读取基因组比对前,需要用函数 ScanBamParam() 构建一些参数。
当由高通量测序实验产生的 reads 被比对到参考基因组后,一般来说人们提出的问题分为两大类: positional only 和 nucleotide-related .
针对比对的 "nucleotide-related" 问题, GenomicAlignments 提供了不同层次的工具。
BAM 格式中的 read 序列是“反向互补”的,当它们与反义链比对时,我们需要将它们重新“反向互补”,得到原始询问序列 ( original query sequences ).
确定需要被“反蔽晌向互补”的 reads:
每个 read 都会被比对不止一次,所以 gal1 中肯定有重复。
去重:
由于比对过程中是容许一些错配、插入缺失标记慎顷、缺口的,所以 mcols(gal1)$seq 中的序列并不是完全与参考基因组匹配的。
"CIGAR" 包含着这些“小错误”出现在比对中的位置信息。
bam文件在进行后续分析前,需要进行排序,samtools的安装见文章:sam文件转换为bam文件——SAMtools - (jianshu.com)
默认是按序物誉列在fasta文件中的顺序(即header)和序列从左往右的位点排序。
-@8:8个线程
-o:输出文件
按read name排序:
这里发现,原始的.bam文件,和.sort.bam以及.name.sort.bam文件的大小不一致,并且.sort.bam小很多,检查三个文件的行数:
行数一致弯册,没有问题。常用罩闹段的是默认排序,即按染色体顺序进行排序。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)