类)
最近终于把Blast本地化弄明白了,参照网上的攻略稍微整理了一下,希望能给学生物的朋友带来一些方便,毕竟好的生物信息学分析是成功的一半嘛~~ 1. 从NCBI上下载Blast本地化程序,下载地址:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.9/blast-2.2.9-ia32-win32.exe 安装得到的Blast本地化软件安装包,安装路径例如"C:\Blast\bin\"。
2. 从相关生物信息学网站上下载数据库,如NCBI的nt库,DFCI的相关EST数据库或者是用户自己建立的fasta格式的核酸序列文件等,将数据库文件移动至Blast本地化程序目录“C:\Blast\bin”
3. 用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下面内容: [NCBI]Data="C:\blast\data\"
将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。
4. 将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的 *** 作带来方便),方法:
a)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量
b)系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化程序所在路径,如“C:\Blast\bin”,点击确定,将安装路径添加到path。
5. 测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入"cmd”,确定),键入"blastall”,回车,如果安装正确,将显示blastall的所有参数说明。如果之前没有进行步骤4,则访问Blast本地化程序所在文件夹后输入"blastall"进行测试。
【访问文件夹时可能用到dos命令有盘符切换"X:"及路径切换"cd \blast\bin”】
6. 下载得到的数据库为fasta格式,需要经过格式转化后才能进行blast,打开dos窗口,访问Blast本地化程序所在文件夹,输入格式化数据库命令: formatdb.exe -i nt.fas -p F -o F
命令中nt.fasta可换为其他预进行格式化的原始fasta数据库文件,稍等片刻,电脑完成数据库的格式化,会在在原数据库文件所在文件夹生成一系列文件,格式化过程无系统报错,Blast本地化体系即构建完成。
7. Blast本地化:在Blast本地化程序所在文件夹创建test.txt文件,将需要Blast的序列以fasta格式存于该文件中,打开dos窗口,访问Blast本地化程序所在文件夹,输入Blastn命令:
blastall -p blastn -d nt.fas -i test.txt -o out.txt
wk_ad_begin({pid : 21})wk_ad_after(21, function(){$('.ad-hidden').hide()}, function(){$('.ad-hidden').show()})
稍等片刻,Blast结果即存于系统自动生成的out.txt文件中。
此外就是建议将常用命令保存在一个txt文件中,需要时直接在dos里面用鼠标右键粘贴就ok了。在test.txt中以fasta格式存储多个序列可以一次得到比对多个序列的结果。
RepeatMasker是一款专门用于基因组重复序列识别的软件,几乎用于所有物种。是做基因组、非编码RNA的必备软件。很多ncRNA与Repeat区有高度相关性。安装在Ubuntu 12.04上,时间为2013-4-7,所有相关软件和数据库全为最新版。
1. RMBlast序列搜索引擎
1sudo apt-get install g++ #安装g++编译器
2tar zxvf ncbi-rmblastn-2.2.28-src.tar.gz #解压
3cd ncbi-rmblastn-2.2.28-src.tar.gz/c++/
4./configure --with-mt --prefix=/usr/local/rmblast --without-debug
5make #编译,需要半小时
6sudo make install
2. TRF(Tandem Repeat Finder)搜寻串联重复序列
http://tandem.bu.edu/trf/trf407b.linux.download.html
1sudo mv trf407b.linux /usr/local/bin/trf #将程序移到可执行目录并改名
3. RepeatMasker程序
http://www.repeatmasker.org/RMDownload.html 2/21/2013: RepeatMasker-open-4-0-1.tar.gz
1tar xvzf RepeatMasker-open-4-0-1.tar.gz
数据库 需要注册才能下载,人工审批,可能要等两天
1cp repeatmaskerlibraries-20120418.tar.gz RepeatMasker/
2sudo tar xvzf repeatmaskerlibraries-20120418.tar.gz #解压并覆盖原目录
3./configure #主要是输入RMBlast安装目录,/安装目录/ncbi-rmblastn-2.2.28-src/c++/GCC460-ReleaseMT/bin
4sudo ln -s /安装目录/RepeatMasker/RepeatMasker /usr/local/bin/RepeatMasker #设置环境变量
以拟南芥基因组为例
1~/Documents/Data/genome_ath10$ RepeatMasker -species arabidopsis TAIR10_chr_all.fas
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)