Blast是一个继承的程序包,通过调用不同的比对模块,blast实现了物种可能的序列比对方式:
blastp:蛋白序列与蛋白库做比对。
blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译成6种可能的蛋白序列),然后再与蛋白库作比对。
blastn:核酸序列对核算库的比对。
tblastn:蛋白序列对核算库的比对,将库中的核酸序列翻译成蛋白序列,然后进行比对。
tblastx:核酸序列对核算库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。
Blast提供了核酸和蛋白序列之间所有可能的比对方式,同时具有较快的比对速度和较高的比对精度,因此在常规双序列比对分析中应用最为广泛,可以毫不夸张的说,blast是做比对基因组学乃至整个生物信息学研究所必须掌握的一种比对工具。
使用:
blast的运行分为两个步骤:第一,建立目标序列的数据库;第二,做blast比对。
1、运行建库程序formatdb:
建库的工程是建立目标序列的索引文件,所以程序是formatdb。程序允许的输入格式是FASTA或者ASN.1格式,通常我们使用的FASTA格式的序列作为输入。用于建库的FAST序列是db.seq, formatdb的基本命令是:
formatdb –i db.seq [-options]
常用参数:
-p (T/F): -p参数的意义是选择建库的类型,“T”表示蛋白库,“F”表示核算库,缺省值为“T”
-o(T/F): -o参数的意义是判断是否分析序列名并建立序列名索引。“T”表示建立序列名索引,“F”表示不建立序列索引。缺省值为“F”。
程序输出:
如果建立的是核算库,输出为db.seq.nhr、db.seq.nin、db.seq.nsq,三个文件,如果选择了“-o T”,还会同时输出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd四个文件,一共七个。
蛋白库和核算库的输出类似,相应的输出文件为:db.seq.nhr、db.seq.nin、db.seq.nsq和db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd七个文件。
除了这个结果,程序还会输出LOG文件(默认为formatdb.log),里面记录了运行时间、版本号、序列数量等信息。
几点需要注意的问题:
1)、建库以后,做blast比对的输入文件就是建库所得的文件db.seq.n**或者db.seq.p**,而不是原始的FASTA序列,也就是说,建库以后,原始序列文件是可以删除的。
2)、如果命令行中选择了“-o T”,并且目标序列中好友gi号重复的序列名时,程序会停止建库并报错。
就是说库文件中不能出现重复的序列(标志是序列号,跟具体的序列没有关系)。
3)、如果输入序列不符合FASTA格式或者ASN.1格式,程序会自动退出,并报错。
[formatdb] ERROR: Could not open db.
4)、核酸序列可以用于建核算库和蛋白库,但是蛋白序列不能用于建核算库,这个是显然的,密码子的问题哦!
其他参数介绍:
-l : “-l 文件名”用来改变LOG文件的命名
-n : “-n 文件名”可以自定义生成的库文件命名
-a : 输入文件为ASN.1格式
2、运行比对程序blastall:
Blast的主程序是blastall。程序的输入文件是query序列(- i参数)而和库文件(-d 参数),比对类型的选择(- p参数)和输出文件(- o 参数)由用户指定。其中“-p”参数有5中取值:
-p blastp:蛋白序列与蛋白库做比对。
-p blastx:核酸序列对蛋白库的比对。
-p blastn:核酸序列对核酸库的比对。
-p tblastn:蛋白序列对核酸库的比对。
-p tblastx:核酸序列对核酸库在蛋白级别的比对。
这些元素就构成了 blast 的基本运行命令(以 blastn 为例):
blastall -i query.fa -d database -o blast.out -p blastn
其中如果"-o"参数缺省,则结果输出方式为屏幕输出。
参数:
仅仅运行blast的基本运行命令,得到的结果往往不能清晰准确的表示出有用的信息。最大的问题就是有太多的冗余,很多很短的比对都会出现在输出结果中,导致结果杂乱无章。为了处理杂乱无章的比对结果,满足各种比对需求,blast设置了很多参数来限制比对的范围和输出的形式。一下多数结果以blastn距离,如不做特殊说明,这些参数适合于所有比对方式。
-e 参数
-e(value)参数是用来过滤比对较差的结果的,用“-e”参数指定一个实数,blast会过滤掉期望值大于这个数的比对结果(就是说这个值越小比对结果就越好)。
blastall -i query.fa -d database -o blast.out -p blastn -e 1e-10
通常情况下,对于不同物种之间的比对,期望值设在1e-5左右即可;而对于同源性较高的物种或者同种的比对,可以适度将期望值调的更小来过滤垃圾结果。比对同一物种cDNA和染色体的比对,参数可用1e-10或更高。
-F 参数
-F(T/F)参数是用来屏蔽简单重复和低复杂度序列的。如果选“T”,程序在比对过程中会屏蔽掉query中的简单重复和低复杂度序列;选“F”则不会屏蔽。缺省值为“T”。
比较两个结果,我们看出使用缺省参数的比对结果损失了一部分信息,得到的统计结果也
出现失真,期望值和 identity 都没有反映出真实情况。有时较长的重复序列甚至会导致比对终止。加了"-F F"就保证了比对结果的完整性。通常在大规模、低精度的比对中,往往用缺省参数,这样能避免程序把过多的时间浪费在无意义的简单重复上,提高运行速度;而在小规模、高精度的比对中,需要加上参数"-F F",保证比对的精确度和完整性。
-m 参数:
“-e”参数能够做到筛选适当的比对结果,但是即使如此,blast的输出结果仍然非常庞大并且难以处理。为了精简输出、节省存储空间、实现更多功能并使结果易于处理,blast 提供了参数“-m (integer)”来设定输出格式,可供选择的值为 0~11 之间的整数,缺省为 0。下面就通过实例逐个解析“-m”参数能够实现的输出功能。
-m 8 : 列表格式的比对结果。从做导游割裂的意义一次是:query名/subject名/identify/比对长度/错配数/空位数/query比对起始坐标/query比对终止坐标/subject比对起始坐标/subject比对终止坐标/期望值/比对得分
在 m8 格式中通过 subject 的比对起止位置可以判断出序列的比对方向。判断方法就是:query和subject的起始和终止坐标是否一致增减。
Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。Blast本地化详细攻略(基于Windows系统)by Fredy 2010-12-16 17:40 | (分类:默认分类)
最近终于把Blast本地化弄明白了,参照网上的攻略稍微整理了一下,希望能给学生物的朋友带来一些方便,毕竟好的生物信息学分析是成功的一半嘛~~ 1. 从NCBI上下载Blast本地化程序,下载地址:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.9/blast-2.2.9-ia32-win32.exe 安装得到的Blast本地化软件安装包,安装路径例如"C:\Blast\bin\"。
2. 从相关生物信息学网站上下载数据库,如NCBI的nt库,DFCI的相关EST数据库或者是用户自己建立的fasta格式的核酸序列文件等,将数据库文件移动至Blast本地化程序目录“C:\Blast\bin”
3. 用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下面内容: [NCBI]Data="C:\blast\data\"
将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。
4. 将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的 *** 作带来方便),方法:
a)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量
b)系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化程序所在路径,如“C:\Blast\bin”,点击确定,将安装路径添加到path。
5. 测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入"cmd”,确定),键入"blastall”,回车,如果安装正确,将显示blastall的所有参数说明。如果之前没有进行步骤4,则访问Blast本地化程序所在文件夹后输入"blastall"进行测试。
【访问文件夹时可能用到dos命令有盘符切换"X:"及路径切换"cd \blast\bin”】
6. 下载得到的数据库为fasta格式,需要经过格式转化后才能进行blast,打开dos窗口,访问Blast本地化程序所在文件夹,输入格式化数据库命令: formatdb.exe -i nt.fas -p F -o F
命令中nt.fasta可换为其他预进行格式化的原始fasta数据库文件,稍等片刻,电脑完成数据库的格式化,会在在原数据库文件所在文件夹生成一系列文件,格式化过程无系统报错,Blast本地化体系即构建完成。
7. Blast本地化:在Blast本地化程序所在文件夹创建test.txt文件,将需要Blast的序列以fasta格式存于该文件中,打开dos窗口,访问Blast本地化程序所在文件夹,输入Blastn命令:
blastall -p blastn -d nt.fas -i test.txt -o out.txt
wk_ad_begin({pid : 21})wk_ad_after(21, function(){$('.ad-hidden').hide()}, function(){$('.ad-hidden').show()})
稍等片刻,Blast结果即存于系统自动生成的out.txt文件中。
此外就是建议将常用命令保存在一个txt文件中,需要时直接在dos里面用鼠标右键粘贴就ok了。在test.txt中以fasta格式存储多个序列可以一次得到比对多个序列的结果。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)