列举常用的生物信息学数据库及序列对比常用软件及特点_sql

一般来说所用的分析工具有在线跟下载的下面简要列举一些常用在线软件的使用 1、使用VecScreen工具，分析下列未知序列，输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤：

打开google 首页，搜索VecScreen，进入VecScreen首页，复制序列，运行，View report。

二、结果：

输出序列长度918bp，

载体序列的区域456bp——854bp.

克隆载体：M13mp18 phage，pGEM-13Zf(+)，pBR322，pRKW2。

2、使用相应工具，分析下列未知序列的重复序列情况，输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。

一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的。

进入google首页，搜索RepeatMasker，进入RepeatMasker主页，进入RepeatMasking，复制序列，DNA source选择human，运行！点击超链接，在结果中选择

Annotation File ：RM2sequpload_1287631711.out.html

3、使用CpGPlot/CpGReport/Isochore工具，分析下列未知序列，输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤：

进入google首页，搜索CpGPlot，进入CpGPlot主页，program中选择cpgreport复制序列，运行！

二、结果：

CpG岛的长度：385bp

区域：48——432；

GC数量：Sum C+G=297，百分数=77.14

Obs/Exp：1.01

4、预测下面序列的启动子，输出可能的启动子序列及相应的位置。一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的

进入google首页，搜索Neural Network Promoter Prediction，进入主页，复制序列，选择eukaryote，运行！

二、结果：

位置：711—761 ，1388—1438，1755—1805；

5、运用Splice Site Prediction工具分析下面序列，分别输出内含子－外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的

进入google首页，搜索Splice Site Prediction，进入主页，复制序列。Organism选择Human or other。其他默认，运行！

二、结果：

供体：

受体：

6、对下面序列进行六框翻译，利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的，输出六框翻译（抓图）和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是Zea的

进入google首页；搜索NCBI，进入主页，选择all resources（A~Z），选择O，选择ORF finder。复制序列，默认，运行！

二、结果：ORF图

三、步骤：进入google首页，搜索GENESCAN，进入主页，Organism:Maize，，其他默认，运行！

四、结果：

G7、进入REBASE限制性内切酶数据库，输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。

一、步骤：进入google首页，google in English，搜索REBASE，进入主页，分别输入AluI、MboI、EcoI，运行！

在MboI中选择第一个，EcoI选择第二个。

二、结果：

ENSCAN图

8、使用引物设计工具，针对下列未知序列设计一对引物，要求引物长度为20-25bp，扩增产物长度300-500bp，退火温度为50-60℃。请写出选择的一对引物（Forward Primer and Reverse Primer）、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤：进入google首页，搜索genefisher，进入主页，复制fasta格式，chechk input， sunmit，；；设置一下引物长度为20-25bp，扩增产物长度300-500bp，退火温度为50-60℃；。

二、结果：

GC含量：

引物的位点：

Tm值：

产物长度：。

9、将下面的序列用NEBcutter 2.0工具分析，用产生平末端及有四个酶切位点的酶进行酶切，并用抓图提交胶图（view gel），要求1.4% agarose和Marker为100bp DNA Ladder。

一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST，得知是linear。

进入google首页，搜索NEBcutter 2.0，进入主页，选择linear，运行！选择custom digest，，把“1”改为“4”，选择平末端，后digest。View gel。选择1.4% agarose和Marker为100bp。

二、结果：

然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物

NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库

数据库相似性搜索——核酸序列与核酸数据库比较（BLASTN）

蛋白质序列与数据库中蛋白质序列比较（BLASTP）

两序列比对（Align two sequences）

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析实验序列外显子部分——GENSCAN（http://genes.mit.edu/GENSCAN.html）

分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)

注： Custom digest -- view gel

限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)

设计引物扩增实验序列——Genefisher

Primer 3

蛋白质序列分析及结构预测：

1.预测蛋白质的分子量及等电点:ExPASy（Compute pI/Mw）

2.分析蛋白质的基本物理化学性质：ExPASy（ProtParam）

3.分析蛋白质的亲水性和疏水性：ExPASy（ProtScale）

4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物：ExPASy（PeptideMass） [* ：kinase K]

5.分析蛋白质的信号肽：ExPASy（SignalP）

6.预测蛋白质的二级结构：ExPASy（Jpred 3）

多物种分子系统发育分析：EMBL（www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂联素蛋白质序列：NP_004788

人类胰岛素生长因子IB前体：P05019

生物信息资源简介

生物信息（bioinformatics）中的“信息（-informatics）”指的是从海量的数据中进行挖掘，从而得到知识的过程，如下图所示。在这个过程中，会涉及到数据的管理，数据的运算，数据挖掘和建模仿真。其中，数据管理部分主要是数据库（database），数据的运算部分主要是指各种生物信息的软件（software tools）。这两部分是生物信息研究非常重要的资源，也是生信入门需要了解的基础知识。下面简要介绍一下这些资源。（本文根据北京大学生物信息学公开课程视频整理，图片来自视频截图）

根据不同的特点，可以把这些资源分成不同的类别。比如根据数据性质可以将database分为原始数据（Original data）数据库和二级数据（Secondary data）数据库。再比如根据软件是独立的工具还是网络服务器，可以将software tools分为standalone programs和web servers。

根据发布者的类别可以分为centralized resources和individual resources。比较大的centralized resources主要有NCBI（National Center for Biotechnology Information）， EBI（European Bioinformatics Institute）和UCSC（University of California Santa Cruz）Genome Browser。下面将分别介绍这三个最大的数据库以及其他的生物信息学数据资源。

1．NCBI简介

NCBI-Genome Database：

存储了目前绝大多数的被测序出来的基因组，目前有1000+基因组被测序出来。

NCBI-Nucleotide/protein (RefSeq):

将不同的版本作了整合之后的参考序列。其中NM_*表示核酸序列，NP_*表示蛋白序列。其中核酸给出了ID号，名称，物种，特征，编码区，序列等信息。蛋白还给出了功能区间信息。

NCBI-Gene：

以基因为单位，整合了pathway、variations、phenotype等信息。

对于Human genes而言，GeneCards比NCBI有更好的对人类基因、蛋白的注释（表达、相互作用、同源蛋白、功能、遗传变异等）。

NCBI-SRA

新一代测序技术的短序列database，每5个月数据就会翻倍。

NCBI-Taxonomy

把所有至少有一个基因被测序过的物种做的物种分类树，在所有被描述过的物种中有10%被测序过。

NCBI-PubMed

用于查阅文献。

NCBI-MeSH

（Medical Subject Heading）controlled vocabulary used for indexing articles for PubMed 结构化的词库。

NCBI-My NCBI

对于感兴趣的关键词，在NBCI设定之后，每周会推送相关文献，对于项目中跟踪文献非常有用。

NCBI-BLAST

NCBI最著名的工具，关于BLAST的两篇文章已经被引用了四万两千多次。不同版本的BLAST包括：

Online：NCBI-BLAST

Standalone：BLAST+

Embedded in webpage：wwwblast

2. EBI简介

EBI中的一些资源如表中所示：

EBI-Ensembl：

介于NCBI和UCSC之间的资源，整合很多物种的不同的资源。Ensembl中数量的类型包括：

EBI-UniProtKB

The Universal Protein Resource (UniProt) is a comprehensive resource for protein sequence and annotation data.

（The UniProt Knowledgebase (UniProtKB) is the central hub for the collection of functional information on proteins, with accurate, consistent and rich annotation. ）

UniProtKB -Swiss-Prot（已经过人工校对）

UniProtKB -TrEMBL（无人工校对）

EBI-IntAct

分子之间相互作用

EBI-Clustal Omega

多序列比对

EBI-InterProScan

输入一个序列，看是否包含目前已经知道功能的蛋白的区域

3 UCSC简介

以基因组为坐标。包含很多的track，包括：SNP，mRNA，剪切的EST，没剪切的EST，高通量的，通过Chi

根据需要从一级数据库中搜集对象的相关数据集合而成的就是二级数据库。

像genebank,EMBL这种都是不加选择的一级数据库，只要是实验获得的，不管什么东西的序列，哪怕是不完整的序列都能上传，而且它们的数据也有可能有重复。如果有某个人专门研究细菌的鉴定，需要用到正式被认可的16srDNA序列，为了研究方便，把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理，重新构建了一个数据库，这就是所谓的二级数据库。如果不构建，直接用一级数据库做blast，就会得出很多未被承认甚至不完整的序列，还要人工一个个看过去，找出公认的标准序列，这样就很麻烦。我举得例子在现实中就是韩国的EzTaxon。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10699112.html

列举常用的生物信息学数据库及序列对比常用软件及特点

发表评论

评论列表（0条）