Bowtie可以在个人计算机上使用,也可以在CSC服务器上使用终端连接。请参阅以下文档的第一部分,了解如何在笔记本电脑上安装Bowtie。特别是对他们的计算机没有管理员权限的那些应该确保软件的正确安装和功能。Bowtie也可以在服务器计算机上远程使用。我们将提供临时帐户访问CSC,但你将需要一个安全Shell终端程序进行通信。默认情况下,Mac和Linux上都有这样的程序,但需要安装Windows。普遍的实现是PuTTY。即使终端程序不用于读取映射,也将需要其他练习,并且应该可用。Bowtie的安装:从下载页面下载相应的版本(Linux,Mac或Win,小编使用的是在Linux下进行)。将zip文件解压缩到新的目录中,并转到该目录。下载的bowtie包装包含大肠杆菌基因组的预先建立的指数,以及从该基因组模拟的一组1000个35bp的读数。要使用Bowtie对齐这些读取,请键入以下命令。bowtiee_colireads/e_coli_1000.fqmap_result.txt
如果你收到错误消息"commandnotfound",请尝试在"bowtie"(./bowtie)之前添加"./"。
(二)使用Bowtie
(1)Mapping
要使用Bowtie对齐示例读取,请发出以下命侍正令。bowtiee_colireads/e_coli_1000.fqmap_result.txt
如果你收到错误消息"commandnotfound",请尝试在"bowtie"(./bowtie)之前添加"./"。"e_coli"与"indexes/e_coli"相同。你可以在文本编辑器中打开map_result.txt。每行都是一个读取对齐。对齐读取的名称显示在第一列中。对于Mac和Linux,使用"少"会更好。
lessmap_result.txt#extrareading
ReadthemanualinthefolderorwebsitetogetadeeperunderstandinghowBowtieworksandfurtheroptionsinBowtie.
我们来看看Bowtie在1中使用的一些不同的选项,报告所有有效的对齐方式与一些不匹配。
./bowtie-a-v2e_coli--suppress1,5,6,7-cATGCATCATGCGCCAT-a/--all报告每个读取或对的所有有效对齐(默认值:off)
-v
最多不相匹配的报告对齐
-c
查询序列在命令行
--suppress
上以默认输出模式抑制输出列
2限制对齐
$./bowtie-k3-v2e_coli--suppress1,5,6,7-cATGCATCATGCGCCAT-k
每次读取或配对时报告有效对齐(默认值:1)。
3不匹配排名
$./bowtie-a--best-v2e_coli--suppress1,5,6,7-cATGCATCATGCGCCAT
所有相同的对齐方式按最佳到最坏的顺序态谈芹进行报告
4只有最不匹配
$./bowtie-a--best--strata-v2--suppress1,5,6,7e_coli-cATGCATCATG
(2)配对对齐
当使用-1和-2选项指定正确配对的读取文件时,Bowtie可以对齐配对端读取(对于原始,FASTA或FASTQ读取文件)
./bowtiee_coli-1reads/e_coli_1000_1.fq-2reads/e_coli_1000_2.fqmap_paired.txt
SAMtools(http://samtools.sf.net)是一套用于存储, *** 纵和分析对齐方式的工具,帆毕例如Bowtie输出的对齐方式。bowtie-Se_colireads/e_coli_1000.fqec.sam
我们可以再次检查sam文件以查看与txt文件的区别(也是在r4,r5中未映射的读取)。接下来,我们将SAM文件转换为BAM以准备排序。
samtoolsview-bS-oec.bamec.sam
接下来,我们对BAM文件进行排序,
samtoolssortec.bamec.sorted
这样我们就简单的对bam文件中的基因组进行配对对齐。
安装最简单的安装方法,注意版本
下载Bowtie、TopHat、Cufflinks的二进制漏兆知发布包,解压到相同的目录
下载samtools,make,将生成的可执行samtools程序也cp到同一个目录
增加该目录到PATH
参数与使用
Usage: tophat [options]* <index_base>
<reads1_1[,...,readsN_1]>[reads1_2,...readsN_2]
-o 输出目录,默认值为 “./tophat_out”。
–solexa-quals/solexa1.3-quals 质量编码,关于质量编码格式请参考《FastQ格式介绍》
-p 线程数,默认值为单线程1.,猜颤可以使用多线程
-G/–GTFSupply TopHat with a set of gene model annotations and/or known
transcripts, as a GTF 2.2 or GFF3 formatted file.指定已有转录本信息
–no-novel-juncs 不查找新的可变剪切
-r
比对时两成对引物间的距离中值。比如说,如果你的插入片段有300bp,而每个引物有50bp,那么r值就应该是200=(300+50*2)/2。没有默认值,如果是末端配对比对时这个值是必须的。
–mate-std-dev 末端配对时中间插入片段的长度的标准差,默认值为20bp
paired-end数据应该如何做
paired end reads是好还是坏,好又好在哪里?如何从结果中体现,如何同一批paired-end reads 使用paired-end
参数与不适用差别在哪里?
READS文件
paired end的reads必须放在不同的两个文件中,文件名必须按照*_1, *_2的规范成对出现,Mixing paired- and
single- end reads together is not supported.不要将paired-end的数据与single end
reads放到一起进行处理。
设置-R参数
大多数情况,使用默认值就可以了,TopHat允许一定量的偏差,TopHat在多个地方使用到这个值,比如当寻找剪切位点与fusion break
point。同时在生成报告的最后阶段选择最佳的alignment时,用到这个信息。可以先用少量的数据进行比对,在比对结果的SAM结果中,对于paired
reads,第九列是插入片段的大概长度,可以用这个数值减去两倍的read的长度,就可以得到实际的-r参返消数需要设置的大小,如果值太大应该小心,只有比对上同一个外显子的情况具有意义。
控制结果的参数
–no-discordant For paired reads, report only concordant
mappings.对于成对的读取,只报告一致的映射。
–no-mixed For paired reads, only report read alignments if both reads in a
pair can be mapped (by default, if TopHat cannot find a concordant 和谐 or
discordant 不和谐 alignment for both reads in a pair, it will find and report
alignments for each read separately分别this option disables that
behavior).
结果读取
paired-end reads,两个reads可以相互验证,这样可以有效的出去许多假阳性的拼接,增加结果的准确性。
bowtie #version 0.12.7ViennaRNA-1.8.5.tar.gz
squid-1.9g.tar.gz
randfold-2.0.tar.gz
PDF-API2-0.73.tar.gz
perl #我的版本是磨谨 5.10.1
~~~~~~~~~~安段游档装bowtie
unzip bowtie-0.12.7-linux-x86_64.zip
解压后就是可执行的二进制文件,握乱不需要编译,省心啊
把bowtie加入环境变量
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)