微⽣物多样研究—16SrRNA基因功能代谢预测
1. 16S rRNA基因功能代谢预测
对于微⽣物⽣态学研究,我们最关注的⽆疑是菌群所具备的代谢功能。随着数据分析技术的发展,我们现在已能根据已知的微⽣物基因组数据,对菌群组成的测序数据(典型的如16SrRNA基因的测序结果)进⾏菌群代谢功能的预测,从⽽把物种的“⾝份” 和它们的“功能”对应起来。
根据菌群代谢功能预测结果,⼀⽅⾯能⼀窥菌群功能谱的概貌,发挥菌群多样性组成谱测序性价⽐⾼的优势;另⼀⽅⾯也能帮助指导后续宏基因组Denovo鸟q法测序的实验设计,更合理地筛选⽤于后续研究的样本。
2. PICRUSt功能预测分析
PICRUSt(PhylogeneticInvestigation of Communities by Reconstruction of Unobserved States)是由美国哈佛⼤学的CurtisHuttenhower课题组开发的菌群代谢功能预测⼯具,通过将现有的16SrRNA基因测序数据与代谢功能已知的微⽣物参考基因组数据库相对⽐,从⽽实现对细菌和古菌代谢功能的预测;预测过程中还考虑了不同物种16SrRNA基因拷贝数的差异,并对原始数据中的物种丰度数据进⾏校正,使预测结果更准确可靠。
分析的总体思路如下:
先根据已测微⽣物基因组的16SrRNA基因全长序列,推断它们的共同祖先的基因功能谱;
对Greengenes 16SrRNA基因全长序列数据库中其它未测物种的基因功能谱进⾏推断,构建古菌和细菌域全谱系的基因功能预测谱;
将测序得到的16S rRNA基因序列数据与Greengenes数据库⽐对,寻找每⼀条测序序列的“参考序列最近邻居”,并归为参考OTU;
根据“参考序列最近邻居”的rRNA基因拷贝数,对获得的OTU丰度矩阵进⾏校正;
最后,将菌群组成数据“映射”到已知的基因功能谱数据库中,实现对菌群代谢功能的预测
PICRUSt能将16SrRNA基因序列在3种功能谱数据库中进⾏预测,即KEGG、COG和Rfam。
代谢(Metabolism)
遗传信息处理(Genetic Information Processing)
环境信息处理(Environmental InformationProcessing)
细胞进程(Cellular Processes)
⽣物体系统(Organismal Systems)
⼈类疾病(Human Diseases)
每⼀类代谢通路⼜被进⼀步划分为多个等级。⽬前,第⼆等级⼀共包括45种代谢通路⼦功能,第三等级即对应代谢通路图,⽽第四等级则对应代谢通路上各个KO(KEGGorthologous groups,KEGG直系同源基因簇)的具体注释信息。
根据PICRUSt的预测结果,可以获得每样本对应于各功能谱数据库的注释信息,以及预测得到的功能类群的丰度矩阵。
KEGG功能预测:
通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库⽐对,得到KEGGpathway 3个层级和丰度表。
COG功能预测:
通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库⽐对,得到COG orthology和function丰度表。
利⽤丰度表信息完成各类可视化结果展⽰。
¥
5
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
微生物多样研究—16SrRNA基因功能代谢预测
微⽣物多样研究—16SrRNA基因功能代谢预测
1. 16S rRNA基因功能代谢预测
对于微⽣物⽣态学研究,我们最关注的⽆疑是菌群所具备的代谢功能。随着数据分析技术的发展,我们现在已能根据已知的微⽣物基因组数据,对菌群组成的测序数据(典型的如16SrRNA基因的测序结果)进⾏菌群代谢功能的预测,从⽽把物种的“⾝份” 和它们的“功能”对应起来。
根据菌群代谢功能预测结果,⼀⽅⾯能⼀窥菌群功能谱的概貌,发挥菌群多样性组成谱测序性价⽐⾼的优势;另⼀⽅⾯也能帮助指导后续宏基因组Denovo鸟q法测序的实验设计,更合理地筛选⽤于后续研究的样本。
3OTU分类和统计:
OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对OTU的分析。
使用QIIME(version 1.8.0)工具包进行统计注释。
使用QIIME(version 1.9.0, http://bio.cug.edu.cn/qiime/)的ucluster方法根据97%的序列相似度将所有序列进行同源比对并聚类成operational taxonomic units (OTUs)。然后与数据库GreenGenes(version gg_13_8, http://greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-16S.cgi)进行比对,比对方法uclust,identity 0.9 。
然后对每个OTUs进行reads数目统计。
下面的2个表,其中一个表是对每个样本的测序数量和OTU数目进行统计,并且在表栺中列出了测序覆盖的完整度(显示前10个样本)。
另一个表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目(显示前10个样本)。
可以看到绝大部分的OTU都分类到了属(Genus),也有很多分类到了种(Species)。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。
测序数目统计表主要是对每个样本的测序数量和OTU数目进行统计,并且在表格中列出了测序覆盖的完整度(显示前10个样本,如果样本超过10个,请查看结果中otu_stat.txt文件)
其中 SampleName表示样本名称;SampleSize表示样本序列总数;OTUsNumber表示注释上的OTU数目;OTUsSeq表示注释上OTU的样本序列总数。
Coverage是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。
计算公式为:C=1-n1/N 其中n1 = 只含有一条序列的OTU的数目; N = 抽样中出现的总的序列数目。
分类水平统计表主要是对每个样本在分类学水平上的数量进行统计,并且在表格中列出了在每个分类学水平上的物种数目(只显示前10个样本,如果样本超过10个,请查看结果中taxon_all.txt文件)
其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class表示分类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)