哈茨木霉（T.harzianum）和盖姆斯木霉（T.gamsii）的基因组_工具

本书作者团队利用鸟q法对两株生防木霉菌Tharzianum和Tgamsii的基因组进行了测序，并分析了有关基因结构。

其中，Tharzianum测序深度为132倍，共得到28336787个reads，利用velvet和bow-tie等软件将这些数据组装成1346个contig和99个scaffold，大小约为428Mb，GC含量为485%。采用RepeatScout软件对基因组进行分析，共从中发现101个重复单元，最小的为50 bp，最大的为859 bp。使用Genemark软件预测基因，共挑选出13781个基因，预测基因的GC含量为503%，平均长度为1474 bp。将13781个预测基因的编码蛋白，通过BLASTP，分别与NR、UNIPORT和KEGG 3个数据库进行比对，条件设为E value ＜1 e-3，分别有13407、10990和4451个蛋白能找到匹配信息。利用SignalP和TMHMM等软件，对所有编码蛋白进行亚细胞定位预测，结果表明，在基因组中共编码890个胞外蛋白、2648个跨膜蛋白和10243个胞内蛋白。

Tgamsii测序深度为132倍，共得到24570069个reads，利用velvet和bowtie等软件将这些数据组装成 949个 contig和1346个 scaffold，大小约为371Mb，GC 含量为497%。采用RepeatScout软件对基因组进行分析，共从中发现72个重复单元，最小为3336 bp，最大为859 bp。使用Genemark软件预测基因，共挑选出11025个基因，预测基因的GC 含量为557%，平均长度为1525 bp。将11025个预测基因的编码蛋白，通过BLASTP，分别与NR，UNIPORT和KEGG 这3个数据库进行比对，条件设为E value ＜1 e-3，分别有10755，7413和3263个蛋白能找到匹配信息。利用SignalP和TMHMM等软件，对所有编码蛋白进行亚细胞定位预测，结果表明，在基因组中共编码793个胞外蛋白、2034个跨膜蛋白和8198个胞内蛋白。

NR数据库中包含的序列来自不同的生物种类，因此在注释过程中可能会出现物种信息中包含种和属的情况。

在分类学中，生物学上的组织结构被分为七个级别，分别是：物种、属、科、目、纲、门和界。种是分类学中最小的分类单位，属则是位于物种级别以上的一个分类单位，通常族属分类。在注释NR数据库中的序列时，系统往往会根据已知的分类学信息来确定物种和属的信息，以便更好地组织序列数据。

但是，由于NR数据库是由不同来源的序列组成的，注释过程中可能会出现一些错误或缺失的物种信息，尤其是对于新发现的生物种类。因此在使用NR数据库进行分析时，需要对注释结果进行验证和修正。

一般来说所用的分析工具有在线跟下载的下面简要列举一些常用在线软件的使用 1、使用VecScreen工具，分析下列未知序列，输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤：

打开google 首页，搜索VecScreen，进入VecScreen首页，复制序列，运行，View report。

二、结果：

输出序列长度918bp，

载体序列的区域456bp——854bp

克隆载体：M13mp18 phage，pGEM-13Zf(+)，pBR322，pRKW2。

2、使用相应工具，分析下列未知序列的重复序列情况，输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。

一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的。

进入google首页，搜索RepeatMasker，进入RepeatMasker主页，进入RepeatMasking，复制序列，DNA source选择human，运行！点击超链接，在结果中选择

Annotation File ：RM2sequpload_1287631711outhtml

3、使用CpGPlot/CpGReport/Isochore工具，分析下列未知序列，输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤：

进入google首页，搜索CpGPlot，进入CpGPlot主页，program中选择cpgreport复制序列，运行！

二、结果：

CpG岛的长度：385bp

区域：48——432；

GC数量：Sum C+G=297，百分数=7714

Obs/Exp：101

4、预测下面序列的启动子，输出可能的启动子序列及相应的位置。一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的

进入google首页，搜索Neural Network Promoter Prediction，进入主页，复制序列，选择eukaryote，运行！

二、结果：

位置：711—761 ，1388—1438，1755—1805；

5、运用Splice Site Prediction工具分析下面序列，分别输出内含子－外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的

进入google首页，搜索Splice Site Prediction，进入主页，复制序列。Organism选择Human or other。其他默认，运行！

二、结果：

供体：

受体：

6、对下面序列进行六框翻译，利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的，输出六框翻译（抓图）和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是Zea的

进入google首页；搜索NCBI，进入主页，选择all resources（A~Z），选择O，选择ORF finder。复制序列，默认，运行！

二、结果：ORF图

三、步骤：进入google首页，搜索GENESCAN，进入主页，Organism:Maize，，其他默认，运行！

四、结果：

G7、进入REBASE限制性内切酶数据库，输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。

一、步骤：进入google首页，google in English，搜索REBASE，进入主页，分别输入AluI、MboI、EcoI，运行！

在MboI中选择第一个，EcoI选择第二个。

二、结果：

ENSCAN图

8、使用引物设计工具，针对下列未知序列设计一对引物，要求引物长度为20-25bp，扩增产物长度300-500bp，退火温度为50-60℃。请写出选择的一对引物（Forward Primer and Reverse Primer）、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤：进入google首页，搜索genefisher，进入主页，复制fasta格式，chechk input， sunmit，；；设置一下引物长度为20-25bp，扩增产物长度300-500bp，退火温度为50-60℃；。

二、结果：

GC含量：

引物的位点：

Tm值：

产物长度：。

9、将下面的序列用NEBcutter 20工具分析，用产生平末端及有四个酶切位点的酶进行酶切，并用抓图提交胶图（view gel），要求14% agarose和Marker为100bp DNA Ladder。

一、步骤：

进入google首页，进入ICBI主页，对序列进行BLAST，得知是linear。

进入google首页，搜索NEBcutter 20，进入主页，选择linear，运行！选择custom digest，，把“1”改为“4”，选择平末端，后digest。View gel。选择14% agarose和Marker为100bp。

二、结果：

然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物

NCBI(（>

问题不是很明确，是想进行序列比对与结构比对吗？序列比对用ncbi网站中的blast就可以分别进行核酸与蛋白的比对，蛋白结构比对，如果没有晶体结构，就需要先同源建模，再进行结构拟合就可以了！希望能帮到你，有问题欢迎追问！

以上就是关于哈茨木霉（T.harzianum）和盖姆斯木霉（T.gamsii）的基因组全部的内容，包括:哈茨木霉（T.harzianum）和盖姆斯木霉（T.gamsii）的基因组、nr数据库注释得到的物种信息怎么有种有属、列举常用的生物信息学数据库及序列对比常用软件及特点等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9630844.html

哈茨木霉（T.harzianum）和盖姆斯木霉（T.gamsii）的基因组

发表评论

评论列表（0条）