BLAST包含五 个程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。
BLAST对序列格式的要求是常见的FASTA格式。FASTA 格式第一行是描述行,第一个字符必须是“>”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。 序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和 “”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用 “X”)。此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M 代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、 G、C、T中任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln; X代表任意氨基酸;“”代表翻译结束标志。
BLASTp:用蛋白质序列搜索蛋白质序列库
BLASTn:用核酸序列搜索核酸库
BLASTx:核酸序列对蛋白质库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列
tBLASTn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索
tBLASTx:核酸序列对核酸库在蛋白质质级别的比对,两者都在搜索之前翻译成为蛋白质质进行比对
引物大吗?如果二十几个bp以上的话,能查出来
正向引物不变,反向引物找反向互补序列,(就是说AATCGGATCCTCj就要翻成GAGGATCCGATT)把这两个序列用两个空格分开,或者用逗号隔开去blast,为了精确,应该在高级选项限制条件里选择你要的那种生物,你要的那种基因(比如是酶就选择酶那一类)。
然后在结果里认真找哈~~登陆 NCBI homepage,点击 blast,然后点击nucleotide blast,在d出的网页上Enter Query Sequence中粘贴你测序的序列。在Choose Search Set一项中,选others。其他不用管,直接点最后面的blast。
然后就等比对结果,稍后就会d出。结果你能看懂的,不解释了。BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在JMolBiol上发表的方法(JMolBiol215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的BLAST20,已将有缺口的比对 序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序列和调用的数据库则可 以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
GCG及EMBOSS等软件包中包含有五种BLAST:
1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。由于这种比对 母丛有裕�虼薚BLASTX在比对中对缺口不予以考虑。
所以总的来说,BLAST是用来比对的,如果与文库中的基因都不同,可能是新的基因,然后还要做其他方面的研究。
1进入blastn(>
2输入查询序列
3设置比对参数(根据需要,选择比对的数据库)
4设置算法参数(注意显示的最大的结果数跟E值,E值是比较重要的筛选标准。)
5点击BLAST运行
6BLAST结果分析
1) 比对基本情况:输入序列类型,长度,比对数据库等。
2) 比对结果图形显示
3) 比对结果描述:注意分值与E值。分值越大越靠前,E值越小也是这样。
4) 总结:评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度(length)的话,就有四个标准了。
Score:序列比对过程中计算的得分值,得分越高,序列匹配结果越好。
Expect:表示随机匹配的可能性。E值越小,序列越相似,E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。
Identities:序列相似性,匹配上的碱基数占总序列长的百分数。
Gaps:插入或缺失。用"—"来表示。
然后启动,blast中几个(分布在不同染色体,或者同一个染色体不同位置)就是几个拷贝。一般同源度高的和低的,是不是这个基因很容易看出来的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)