进入到excel的程序界面,在这个界面里面单击鼠标左键选中要删除重复项的数据区域。找到并按下你的电脑键盘上面搏穗的alt+d的组合按键,再按下字母r按键。再按下字母d按键,d出重复项的设置框后点击下面的删除重复项,再点击确定按钮就可以了。
进入到excel的程序界面,单击鼠标左键选中要进行删除的数据区域。点击上方的开始选项卡,再找到并点击开始选知察项卡下面的筛选功能。在d出的菜单里面点击高级筛选,勾选下面的选择不重复的记录,点击确搭银茄定按钮就可以删除重复项了。
进入到excel的程序界面,单击你的鼠标左键选中要进行删除的数据区域。点击上方的数据选项卡,再点击数据选项卡下面的重复项。在d出的菜单里面点击删除重复项 *** 作,d出设置框后直接点击删除重复项,再点击d出的确定按钮就可以删掉这些重复项了。
http://lomereiter.github.io/sambamba/1.排序
sambamba sort OPTIONS <input.bam>
主要参数兆乎:
-o, --out 设置输出文件的名字(默认 .sorted.bam)
-n, --sort-by-name 按reads id排序(默认按照在参考基因组上的位置排序)
2.建立索引
sambamba index [-p|--show-progress] [-n|--threads=NTHREADS] <input.bam>[<output.bai>]
示例:
3.提取文件的信息
sambamba view OPTIONS <input.bam | input.sam>[region1 [...]]
主要参数:
-S 输入文件为sam(默认为bam)
-F, --filter=FILTER 过滤提取bam
-f, --format=FORMAT 指定输出文件格式(默认是sam, 还支持bam, json, or msgpack )
-h, --with-header 保留header
示例:
4.合并多个bam文件
sambamba merge OPTIONS <output.bam><input1.sorted.bam><input2.sorted.bam>[...] #automatically like in Picard merging tool
主要参数:
-t, --nthreads=NTHREADS 设置线程数
-H, --header 合并sam中的header
-l, --compression-level 按0 to 9设置文件压缩的程度
5.查看reads flag的比对结果
sambamba flagstat OPTIONS <input.bam>
显示以下信息:
First line contains numbers of QC-passed and QC-failed reads. Then come pairs of numbers, the former for QC-passed reads, the latter for QC-failed ones:
6.查重复序列
sambamba markdup OPTIONS <input.bam><output.bam>
主要参数:
-r, --remove-duplicates 去掉重复序列,否则仅mark重复序列
-t, --nthreads=NTHREADS
-l, --compression-level=N
--tmpdir=TMPDIR 设置中间文件生成目录(默认为/tmp)
此外,还可以提取sam文件的某一段滑余, sambamba slice OPTIONS <input.bam>region
https://github.com/GregoryFaust/samblaster
https://doi.org/10.1093/bioinformatics/btu314
主要参数:
-i --input 输入sam文件(必须包含header且按reads id排序)
-o --output输出sam文件
-d --discordantFile 输出discordant read pairs
-s --splitterFile 输出split reads
-u --unmappedFile输出unmapped/clipped reads
其他参数:
-a --acceptDupMarks不去重
-e --excludeDups 去掉discordant, splitter, and/or unmapped等重复(具体定义详见samblaster主信猜滚页)
-r --removeDups 去掉重复(-e --excludeDups类似)
--addMateTags 添加MC and MQ tags
-M 与bwa mem -M 类似
示例:
需要注意的是picard Markduplicates 和sambamba markdup的输入文件是bam格式,samblaster是sam格式
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)