cazy database 怎么分析

cazy database 怎么分析,第1张

Online since 1998, CAZy is a specialist database dedicated to the display and analysis of genomic, structural and biochemical information on Carbohydrate-Active Enzymes (CAZymes)

CAZy data are accessible either by browsing sequence-based families or by browsing the content of genomes in carbohydrate-active enzymes New genomes are added regularly shortly after they appear in the daily releases of GenBank New families are created based on published evidence for the activity of at least one member of the family and all families are regularly updated, both in content and in description

An original aspect of the CAZy database is its attempt to cover all carbohydrate-active enzymes across organisms and across subfields of glycosciences Please let us know if some families have escaped our attention, we will be happy to add them !

For a more extensive encyclopedic resource on the particular features of carbohydrate active enzymes, please visit CAZypedia, a web site driven by the scientific community that studies these enzymes

A new reference for the CAZy database : In the latest database issue of Nucleic Acids Research, we summarize the many changes that have occurred in the CAZy database during the last five years

Read the Abstract or the full PDF

A new tool associated with the CAZy database ! PULDB is a database of Polysaccharide Utilization Loci (PULs) in Bacteroidetes PULDB displays information on experimentally determined and predicted PULs for a number of Bacteroidetes genomes

Read the Abstract or the full paper

很难碰到这么对口的问题,着实兴奋了一把。回答如下:

真菌的纤维素降解酶系是以游离酶为基础的,基本上可以分为三大类,外切纤维素酶(又叫纤维二糖水解酶,即CBH),内切纤维素酶(EG),外切酶分为两种,一种是从纤维素的还原端开始水解的,外切纤维素酶I,即CBHI,另一种是从纤维素的非还原端降解的,外切纤维素酶II,即CBHII。内切酶有EGI,EGII,EGIII,EGIV等,根据物种的不同会有不同的种类,一般的,EGII指的是这种微生物分泌的内切纤维素酶中第二个被发现的。但是,正是由于这种纤维素酶分类的命名的局限性,现在结合糖苷水解酶数据库(CAZY)的命名比较常见。

同学是做纤维素酶的吗?欢迎交流,哈哈。

Treesei是工业上纤维素酶和半纤维素酶的主要生产来源,这些酶用于将生物质解聚成简单的糖类,再转化成化学中间体和生物燃料例如乙醇。对Treesei的基因组进行测序(Martinez et al,2008),将reads组装成89个scaffold,大小为34Mbp,包含9219个基因。出乎意料的是,相比其他已测序的能降解植物细胞壁多糖的真菌,Treesei基因组中编码的纤维素酶和半纤维素酶基因数目较少。许多Treesei的碳水化合物活性酶编码基因并非随机分布,而是成簇地分布在与其他粪壳菌纲(Sardariomycetes)真菌的共线性区域之间。

7211 Treesei基因组的特点

利用鸟q法对Treesei的基因组进行测序,构建了3个文库,插入片段的大小分别为3kb,8kb和40kb,覆盖度为9倍,共得到 433863个 reads,利用 Jazz,Phred/Phrap/Consed等软件将这些数据组装成89个scaffold和97个contig,大小约为34Mb(Martinez et al,2008)。比几个核型分析预测的基因组大小约大29%(Carter et al,1992;Man-tyla et al,1992;Herrera-Estrella et al,1993),与物理方法预测的大小几乎一致。核型分析所用的遗传标记和在Genbank中发布的所有蛋白和RNA序列在该基因组中都能找到。因此,推测该基因组序列代表了Treesei 99%以上的基因组信息。

在基因组中发现了类似于I和II型转座子的重复序列,但都存在多个终止密码子。造成缺少活跃转座子的原因可能是由于Treesei存在活跃的防御机制,例如重复诱导的点突变。这些转座子总数不超过基因组序列的1%,是目前已知的出现频率最低的真菌之一。在Treesei的7个scaffold末端存在重复6核苷酸序列TTAGGG,该序列与粉红面包霉(Neurospora crassa)端粒重复序列相同。

预测Treesei 基因组含有9129个基因,与Ncrassa中的基因数目相当(Galagan et al,2003),但是比禾谷镰刀菌(Fusarium graminearum,其有性态为Gibberella zeae)预测的基因数少了接近2500个(Cuomo et al,2007)。Treesei基因的平均大小为1793 bp,每个基因平均含有31个外显子,外显子的平均长度508 bp,内含子平均大小120 bp。

7212 Treesei保守共线性

为了解环境因素对基因组进化的影响,比较了Treesei,Fgraminearum和Ncrassa共线性的区域。根据比较结果,推测许多基因组片段中基因的顺序在该种类出现时就已经改变,共线性的区段间存在很大的间隙(Galagan et al,2005)。在很多情况下,Treesei和其他粪壳菌纲(Sordariomycetes)真菌中这种间隙是很保守的。非共线性的区域通常包含对菌株适应性重要的基因(Galagan et al,2005;Machida et al,2005;Nierman et al,2005)。另外一个值得注意的特点是在3个真菌(Treesei,Fgraminearum和Ncrassa)中存在一些随种类出现就已发生的染色体重排,表明了基因组的高度动态性。

7213 Treesei的蛋白结构域

与盘菌亚门(Pezizomycotina)的其他真菌相比,Treesei基因组中已知功能的蛋白质数量较少,与生物质降解有关的蛋白组成也不一样。Treesei缺少与侵染和降解植物活体组织相关的蛋白,例如果胶裂解酶和果胶酯酶,这与其腐生习性相符。而且,在Treesei中没有发现鞣酸酶和阿魏酸酯酶,表明其在半纤维素降解方面存在缺陷。

7214 Treesei和其他真菌中的碳水化合物活性酶

在CAZy数据库中,碳水化合物活性酶(Carbohydrate-active enzymes,CAZymes)被分为不同的级别和种类。能切割、构建和重排寡糖和多糖的CAZymes在真菌生物学中扮演重要的角色,对优化生物质的降解也同样重要。尽管Treesei是植物多糖的有效降解者和降解研究体系中的重要模式菌,但是在其基因组中含有的糖苷水解酶(GH)编码基因较少。Treesei中仅含有200个GH编码基因,比植物病原菌Magnaporthe grisea(231个)和Fgraminearum(243个)都少。

Treesei中含有103个糖基转移酶,接近粪壳菌纲(Sordariomycetes)中该类酶的平均数(96个)。在粪壳菌纲中,该酶类的变异性比GH小。这种趋势在世系内外皆存在,表明糖基转移酶控制的是比较基础性的胞内生命活动,其组成变化所反映的是物种的差异而非环境压力的不同。与植物多糖解聚过程有关的酶,通常携带一个碳水化合物结合组件(Carbohydrate-Binding Module,CBM),该组件连接在催化区上。在已知的粪壳菌纲中,Treesei的基因组中含CBM的蛋白数量最少。同样,Treesei中碳水化合物酯酶的数量也是粪壳菌纲中最少的。包括Treesei在内,粪壳菌纲真菌中相对缺少多糖裂解酶基因,而散囊菌纲真菌(Eurotiomycetes)含有的多糖裂解酶数量较多,平均有18个。在单细胞子囊菌纲(Ascomycetes)中没有发现多糖裂解酶。

出人意料的是,在Treesei基因组中仅发现了7个编码已知纤维素酶(内切葡聚糖酶和纤维二糖水解酶)的基因,在表74列出的能降解植物细胞壁的真菌中,Treesei的纤维素酶基因的数量最少。如果加上GH61蛋白家族,这种趋势更加明显。半纤维素包含不同种类的多糖,完全降解它们需要一系列的酶。Treesei基因组仅含有16个半纤维素酶基因,也是在真菌中数量较少的。同样,其分解果胶的酶数量为5个,也是在植物细胞壁降解真菌中数量较少的(Martinez et al,2008)。

表74 真菌基因组中的纤维素水解酶

注:a纤维素种类:CBH1,外切纤维二糖水解酶Ⅰ,GH7;CBH2,外切纤维二糖水解酶Ⅱ,GH6;EG1,内切葡聚糖酶Ⅰ,GH7;EG2,内切葡聚糖酶Ⅱ,GH5_5;EG3,内切葡聚糖酶Ⅲ,GH12_1;EG4,糖苷水解酶家族,Cel61,GH61;EG5,内切葡聚糖酶基因Ⅴ,Cel45。

7215 蛋白分泌

Treesei能非常有效地分泌胞外酶,有些工业菌株1L培养液可以产生100g胞外蛋白(Cherry et al,2003)。在Treesei中发现了与酿酒酵母(Saccharomyces cerevisiae)分泌途径中起作用蛋白的同源蛋白。这些蛋白多数是单拷贝,与酵母蛋白的相似性比与哺乳动物源相似蛋白的相似性更高。Treesei含有三个与酵母的蛋白质二硫键异构酶(Pdi lp)同源的蛋白,这可能与Treesei分泌的纤维素酶多数含有二硫键有关(Divne et al,1994)。酵母der1和ufd1基因在Treesei中都存在两个直系同源基因,它们与内质网相关的蛋白降解(ERAD)途径有关。此外,在Treesei中发现了大多数已知ERAD组分的同源蛋白,但在Aspergillus niger基因组中却缺少ERAD组分同源蛋白(Pel et al,2007)。这些数据表明,在Treesei中,ERAD途径似乎比内质网分泌途径更过剩。

Scerevisiae中参与蛋白运转相关的蛋白直系同源物大多数能在Treesei中找到,它们多数是单拷贝。酵母缺少与哺乳动物GTPase蛋白Rab2,Rab4,Rab5,Arf6和Arf10对应的蛋白,这些信号蛋白参与膜融合或囊泡的出芽,而在Treesei和Ncrassa中含有这些蛋白的直系同源物。酵母中质膜分泌小泡受体t-SNARE蛋白Sso1p,在Treesei中有两个同源蛋白,研究表明,这两个Sso1同源蛋白具有不同的功能(Valkonen et al,2007)。综上所述,这些研究表明Treesei的膜运输系统比在Scerevisiae中的更加多样化。

7216 Treesei的CAZyme基因簇

Treesei中许多CAZyme的编码基因在基因组中不是随机分布的。有研究表明,9个与纤维素和半纤维素降解有关的蛋白编码基因共同分布在基因组的几个区域。通过对Treesei基因组中所有CAZyme的编码基因定位发现,316个CAZyme中的130(41%)分布在25个不连续的区域,这些区域大小从14 kb到275 kb不等(总共约24Mb,约占基因组的7%)。这些区域中含有CAZyme基因的密度比随机分布基因密度大5倍。

通过对基因簇中基因数量的分析,130个CAZyme的95个(73%)分布在基因组共线性区域的间隙。而这95个中的69个(72%)在Fgraminearum含有直系同源物。有16个CAZyme与Fgraminearum共线性,表明基因迁移是这些基因簇形成的主要因素,而基因复制的作用较小。在同一基因簇中的CAZyme基因很少是出自同一个CAZyme家族,这也表明基因的迁移在这些基因簇形成过程的作用比基因复制更大。

CAZyme基因成簇分布表明其特殊的生物学功能,在基因簇中的CAZyme基因有70%编码GH。基因组中有24%的糖基转移酶基因和46%的GH基因分布在这些基因簇内,表明这些基因簇中的CAZyme基因大多数参与多糖的降解。与植物细胞壁降解有关的基因多数分布在富含CAZyme的区域的现象,也证实了这一点。Treesei中有4个类似于扩展蛋白的基因(Saloheimo et al,2002),其中3个分布在这些基因簇内。有趣的是,少量与真菌细胞壁合成有关的糖基转移酶编码基因也出现在CAZyme基因簇中,比如甘露糖基转移酶、几丁质合酶、a-糖基转移酶和β-糖基转移酶(Cabib et al,2001)。

结合对槐二糖和纤维素诱导的Treesei转录组数据进行分析(Foreman et al,2003),将槐二糖和纤维素诱导表达基因定位到基因组上,发现尽管不是所有成簇分布的GH基因都共表达,但是确实发现了一些相邻基因共表达的例子。例如,在Treesei基因组第29条scaffold的CAZyme基因簇区,外切纤维二糖水解酶cel7a、纤维素膨胀因子和木聚糖酶4在槐二糖和纤维素诱导下同时表达。上述结果表明,CAZyme基因成簇分布具有重要的意义。由于这些区域与其他真菌没有共线性的信号,表明在Treesei中这些基因发生了重排,这种重排对其在进化上是有利的。

在几个CAZyme基因密度高的区域也包含与次级代谢有关的蛋白编码基因。在25个CAZyme基因簇中,有5个基因簇都包含一个聚酮合酶(PKS)或非核糖体肽合成酶(NRPS)基因。另外,与其他Sordariomycetes真菌相比,Treesei中保留了大多数非核糖体肽合成酶(NRPS)的旁系同源基因。

以上就是关于cazy database 怎么分析全部的内容,包括:cazy database 怎么分析、在纤维素生物学领域,CBH,EGII,CBHI都是什么意思如图,2.2的第3,4行、里氏木霉(T.reesei)的基因组等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9433340.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存