生信菜鸟团上大学之后,我上网找资料时发现的第一个博客就是生信菜鸟团,里面包罗万象,涵盖很多方面(初次发现时,就感觉自己进入了新的天地)rabbit gao's blog 我超喜欢这个师兄的博客里面的笔记,很直观,尤其是python那部分。他是以代码的形式展示内容。沈梦圆博客梦圆师姐,和我一样喜欢用熊猫头像,她的博客也是刚刚建立不长时间。师姐的文笔很赞,看里面博文相信对你有帮助的。生信日志|鸣一道鸣一道师兄的博客我比较喜欢的是R做图那一块plob这个我比较少看,不过内容也不错,我后续再写上这个博客的描述。陈连福博客 听说连福老师有开培训班,实力自然也不差。糗世界←欢迎来到糗糗的世界糗世界主要包括:序列比对与NGS R/bioconductorcircos教程,其中糗世界关于R和bioconductor以及NGS的归纳总结特别详尽生信客部落生信客部落是我自己的博客,刚建不久(201693建的),我目前在准备考研,打理的时间不多。但相信是一只潜力股,有提升的空间。也欢迎博友们交换 "友情链接"hope博客 hope 他(她)有一篇关于生物信息学在线工具的总结,我特别喜欢科研动力“endnote使用宝典”,专注写endnote相关的内容。(注:endnote 是文献管理的软件,插入引用文献的神器)biochen生物伯臣生物里也蛮多归纳整理的Bob's Blog bob这位兄弟的博客我接触不多,我后续补上描述论坛(包括生信论坛和其他一些相关的网站):生信技能树生信技能树前面那个师兄有详细描述过。我也亲眼见证了它从无到有的过程,看着生信技能树感觉特别亲切,感觉就像自家的孩子一样。我自己由于准备考研和书写毕业论文的事情,在生信技能树建设的参与度不高。总之,好喜欢生物信息学天空内容超全的一个生信论坛丁香园(生信板块)丁香园,就不解释了,一个国内最成功的论坛之一。医学生基本都知道的一个论坛。小木虫小木虫,里面蛮多资源的,也是国内最成功的论坛之一生物统计家园描述待输入基因堂描述待输入biostars这是一个生信问答网站生信刷题网站ROSALIND | About 这个是一个生物信息的刷题网站,超多实战题(纯英文,既提高英语水平,又训练了自己的实战能力,何乐而不为)。实战走起生物信息学在线工具网站生信客部落生物信息工具整合(包含在线工具与离线工具)–更新中这里面包含了一些生物信息学可视化工具,包含在线的工具和一些离线的可视化工具,由于目前个人水平有限,所以还有待继续完善
我原来常用的:
NCBI:持有INSDC的节点。网站上有核酸、蛋白、基因名、基因组名等等的搜索工具,以及BLAST序列比对搜索工具,PUBMED文献数据库,Taxonomy数据,COG蛋白家族库等等。FTP可以下到它全部的数据库,BLAST的单机程序,以及各种工具程序。
EBI:和NCBI类似,欧洲搞的对等物。感觉EBI网站比NCBI要清楚简洁。另外EBI网站整合了更多的工具,比如多序列比对。
Uniprot:全蛋白库。NCBI和EBI的蛋白库来源于此。目前包括两部分:SwissProt是人工校对过的,TrEMBL是自动校对的。
Pfam:蛋白家族库。可以使用配套的HMMER进行搜索。比BLAST能找到更远缘的东西,而且找到的东西是结构域。
Rfam:RNA的,类似Pfam。
国外与生物信息学相关的网站有哪些
生物信息学高度依赖于网络。实际上,你需要的几乎所有资源,都可以从网上下到。你需要关注你研究领域所需要的那些,而不是全部的资源。
我原来常用的:
NCBI:持有INSDC的节点。网站上有核酸、蛋白、基因名、基因组名等等的搜索工具,以及BLAST序列比对搜索工具,PUBMED文献数据库,Taxonomy数据,COG蛋白家族库等等。FTP可以下到它全部的数据库,BLAST的单机程序,以及各种工具程序。
EBI:和NCBI类似,欧洲搞的对等物。感觉EBI网站比NCBI要清楚简洁。另外EBI网站整合了更多的工具,比如多序列比对。
Uniprot:全蛋白库。NCBI和EBI的蛋白库来源于此。目前包括两部分:SwissProt是人工校对过的,TrEMBL是自动校对的。
Pfam:蛋白家族库。可以使用配套的HMMER进行搜索。比BLAST能找到更远缘的东西,而且找到的东西是结构域。
Rfam:RNA的,类似Pfam。
RDP:16S rRNA库。除了序列,它还有一个基于K-mer naive Bayesian model的rdp classifier,可以对输入序列进行物种分类,效率和准确性较直接使用BLAST更高。
GreenGenes:也是16S库,不过它只收集比较全的序列。它提供了一个16S的标准化比对,并基于这个东西搞了个物种分类工具。
EMBOSS:一个工具包,提供了几百个进行序列 *** 作的工具。
BioPerl、BioPython:Perl和Python的生物学模块。
R:类似matlab的语言,有一大堆的生物学包。
SOAP:华大基因搞的高通量测序工具包,有de-novo拼接的,有mapping的,还有一些后续分析的。
bowtie:一个用于序列mapping的软件。
samtools:用于 *** 纵、分析高通量序列mapping的结果。功能非常灵活,但有点复杂。
fastx toolkit:用来 *** 纵高通量测序序列的工具包。
微生物多样研究—16SrRNA基因功能代谢预测
微⽣物多样研究—16SrRNA基因功能代谢预测
1 16S rRNA基因功能代谢预测
对于微⽣物⽣态学研究,我们最关注的⽆疑是菌群所具备的代谢功能。随着数据分析技术的发展,我们现在已能根据已知的微⽣物基因组数据,对菌群组成的测序数据(典型的如16SrRNA基因的测序结果)进⾏菌群代谢功能的预测,从⽽把物种的“⾝份” 和它们的“功能”对应起来。
根据菌群代谢功能预测结果,⼀⽅⾯能⼀窥菌群功能谱的概貌,发挥菌群多样性组成谱测序性价⽐⾼的优势;另⼀⽅⾯也能帮助指导后续宏基因组Denovo鸟q法测序的实验设计,更合理地筛选⽤于后续研究的样本。
2 PICRUSt功能预测分析
PICRUSt(PhylogeneticInvestigation of Communities by Reconstruction of Unobserved States)是由美国哈佛⼤学的CurtisHuttenhower课题组开发的菌群代谢功能预测⼯具,通过将现有的16SrRNA基因测序数据与代谢功能已知的微⽣物参考基因组数据库相对⽐,从⽽实现对细菌和古菌代谢功能的预测;预测过程中还考虑了不同物种16SrRNA基因拷贝数的差异,并对原始数据中的物种丰度数据进⾏校正,使预测结果更准确可靠。
分析的总体思路如下:
先根据已测微⽣物基因组的16SrRNA基因全长序列,推断它们的共同祖先的基因功能谱;
对Greengenes 16SrRNA基因全长序列数据库中其它未测物种的基因功能谱进⾏推断,构建古菌和细菌域全谱系的基因功能预测谱;
将测序得到的16S rRNA基因序列数据与Greengenes数据库⽐对,寻找每⼀条测序序列的“参考序列最近邻居”,并归为参考OTU;
根据“参考序列最近邻居”的rRNA基因拷贝数,对获得的OTU丰度矩阵进⾏校正;
最后,将菌群组成数据“映射”到已知的基因功能谱数据库中,实现对菌群代谢功能的预测
PICRUSt能将16SrRNA基因序列在3种功能谱数据库中进⾏预测,即KEGG、COG和Rfam。
代谢(Metabolism)
遗传信息处理(Genetic Information Processing)
环境信息处理(Environmental InformationProcessing)
细胞进程(Cellular Processes)
⽣物体系统(Organismal Systems)
⼈类疾病(Human Diseases)
每⼀类代谢通路⼜被进⼀步划分为多个等级。⽬前,第⼆等级⼀共包括45种代谢通路⼦功能,第三等级即对应代谢通路图,⽽第四等级则对应代谢通路上各个KO(KEGGorthologous groups,KEGG直系同源基因簇)的具体注释信息。
根据PICRUSt的预测结果,可以获得每样本对应于各功能谱数据库的注释信息,以及预测得到的功能类群的丰度矩阵。
KEGG功能预测:
通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库⽐对,得到KEGGpathway 3个层级和丰度表。
COG功能预测:
通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库⽐对,得到COG orthology和function丰度表。
利⽤丰度表信息完成各类可视化结果展⽰。
¥
5
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
微生物多样研究—16SrRNA基因功能代谢预测
微⽣物多样研究—16SrRNA基因功能代谢预测
1 16S rRNA基因功能代谢预测
对于微⽣物⽣态学研究,我们最关注的⽆疑是菌群所具备的代谢功能。随着数据分析技术的发展,我们现在已能根据已知的微⽣物基因组数据,对菌群组成的测序数据(典型的如16SrRNA基因的测序结果)进⾏菌群代谢功能的预测,从⽽把物种的“⾝份” 和它们的“功能”对应起来。
根据菌群代谢功能预测结果,⼀⽅⾯能⼀窥菌群功能谱的概貌,发挥菌群多样性组成谱测序性价⽐⾼的优势;另⼀⽅⾯也能帮助指导后续宏基因组Denovo鸟q法测序的实验设计,更合理地筛选⽤于后续研究的样本。
基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。
1:重复序列的识别。
重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。
重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。
重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。另一方面,我们利用Repeatmasker识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。
重复序列识别的关键技术难点:
1):第二代测序技术测基因组,有成本低、速度快等优点。但是由于目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。
2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads(unassembled reads)。有必要同时分析未组装reads以得到更为完整的重复序列分布图。之前,华大已开发了ReAS软件,专门用于识别未组装reads中的重复序列。但该软件目前只能处理传统测序技术(如sanger测序)生成的较长片段的reads,需要进一步改进方可用于分析第二代测序技术得到的reads。同时,未组装的短片段reads重复度更高,识别其重复区域具有较大难度。
重复序列识别的研究方向:
1):整合现有的重复序列预测方法,对组装好的基因组序列进行分析。
2):综合考虑并结合短序列组装策略,校正重复序列识别的结果。
3):开发识别未组装reads重复序列的算法和流程并构建一致性序列。
2:非编码RNA序列的预测。
非编码RNA预测的研究背景和意义:非编码RNA,指的是不被翻译成蛋白质的RNA,如tRNA, rRNA等,这些RNA不被翻译成蛋白质,但是具有重要的生物学功能。miRNA结合其靶向基因的mRNA序列结合,将mRNA降解或抑制其翻译成蛋白质,具有沉默基因的功能。tRNA (转运RNA)携带氨基酸进入核糖体,使之在mRNA指导下合成蛋白质。rRNA(核糖体RNA)与蛋白质结合形成核糖体,其功能是作为mRNA的支架,提供mRNA翻译成蛋白质的场所。snRNA(小核RNA)主要参与RNA前体的加工过程,是RNA剪切体的主要成分。
非编码RNA预测的发展现状:由于ncRNA种类繁多,特征各异,缺少编码蛋白质的基因所具有的典型特征,现有的ncRNA预测软件一般专注于搜索单一种类的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。Sanger实验室开发了Infernal软件,建立了1600多个RNA家族,并对每个家族建立了一致性二级结构和协方差模型,形成了Rfam数据库。采用Rfam数据库中的每个RNA的协方差模型,结合Infernal软件可以预测出已有RNA家族的新成员。Rfam/Infernal方法应用广泛,可以预测各种RNA家族成员,但是特异性较差。我们建议:如果有更好的专门预测某一类非编码RNA的软件,那么采用该软件进行预测;否则,使用Rfam/Infernal流程。
非编码RNA预测的研究内容:利用Rfam家族的协方差模型,我们采用Rfam自带的Infernal软件预测miRNA和snRNA序列。由于rRNA的保守性很强,为此我们用序列比对已知的rRNA序列,识别基因组中的rRNA序列。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。
非编码RNA预测中拟解决的关键技术难点:
识别非编码RNA的假基因:基因组中很多序列由非编码RNA基因复制而来,与非编码RNA基因序列相似,但不具有非编码RNA的功能。目前我们采用的非编码RNA序列的预测方法都是基于序列比对和结构预测,不能够很好的去除这类非编码RNA的假基因。针对这个问题,我们考虑结合RNA表达信息如RNA-seq数据进行筛选。
非编码RNA预测的研究方向:
1):专门检测小片段RNA序列的方法现在已经得到广泛应用,利用小片段RNA序列数据进行非编码RNA的预测是我们的重要研究方向。
2):开发miRNA靶向基因预测流程:miRNA通过调控其靶向基因的mRNA稳定性或翻译来控制生命活动的进程。预测miRNA靶向基因能够给我们研究miRNA功能带来提示。由于miRNA在动物和植物中对靶向基因的调控机制差别较大,我们建议对动物和植物分别建立靶向基因预测流程,提高预测准确度。
3:基因结构预测。
基因结构预测的研究背景和意义:通过基因结构预测,我们能够获得基因组详细的基因分布和结构信息,也将为功能注释和进化分析工作提供重要的原料。基因结构预测包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子、可变剪切位点以及蛋白质编码序列等等。
基因结构预测的发展现状: 原核生物基因的各种信号位点(如启动子和终止子信号位点)特异性较强且容易识别,因此相应的基因预测方法已经基本成熟。Glimmer是应用最为广泛的原核生物基因结构预测软件,准确度高。而真核生物的基因预测工作的难度则大为增加。首先,真核生物中的启动子和终止子等信号位点更为复杂,难以识别。其次,真核生物中广泛存在可变剪切现象,使外显子和内含子的定位更为困难。因此,预测真核生物的基因结构需要运用更为复杂的算法,常用的有隐马尔科夫模型等。常用的软件有Genscan、SNAP、GeneMark、Twinscan等。
基因结构预测的研究内容:基因结构预测主要通过序列比对结合从头预测方法进行。序列比对方法采用blat和pasa等比对方法,将基因组序列与外部数据进行比对,以找到可能的基因位置信息。常用的数据包括物种自身或其近缘物种的蛋白质序列、EST序列、全长cDNA序列、unigene序列等等。这种方法对数据的依赖性很高,并且在选择数据的同时要充分考虑到物种之间的亲缘关系和进化距离。基因从头预测方法则是通过搜索基因组中的重要信号位点进行的。常用的软件有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同时采用多种方法进行基因预测将产生众多结果,因此最后需要对结果进行整合以得到基因的一致性序列。常用软件有Glean,EVM等。
基因结构预测中拟解决的关键技术难点:
目前,真核生物的基因结构预测方法仍有较大改进空间,主要面临以下的技术难点。
1):如何利用现有的数据和算法,更好地识别基因的可变性剪切位点。
2):随着测序工作的进展,许多目前研究较少的物种也将提上测序日程。大多基因结构的从头预测算法需要预先训练预测参数。现有资源和数据稀缺的物种将很难获得预测参数。
3):克服组装错误对基因结果预测的影响
4):建立基因结构预测的评价系统。
可变性剪切位点的预测较为困难。如何结合RNA-seq数据进行可变剪切预测将是重要的工作方向和难点。
基因结构预测的研究方向:
1):利用RNA-seq、EST等数据校正基因结构预测结果,识别可变剪切位点。
2):对于研究较少的物种,建议利用近缘物种的同源基因数据以训练基因结构预测软件。
3):利用同源基因组之间的共线性信息,辅助基因结构预测。
4:基因功能注释。
基因功能注释的研究背景和意义:获得基因结构信息后,我们希望能够进一步获得基因的功能信息。基因功能注释方向包括预测基因中的模序和结构域、蛋白质的功能和所在的生物学通路等。
基因功能注释的发展现状:全基因组测序将产生大量数据,而实验方法由于成本较高,不适用于全基因组测序的后续功能分析。为此,目前普遍采用比对方法对全基因组测序的基因功能进行注释。KEGG和Gene Ontology是目前使用最为广泛的蛋白质功能数据库,分别对蛋白质的生物学通路和功能进行注释。Interpro通过整合多个记录蛋白质特征的数据库,根据蛋白质序列或结构中的特征对蛋白质进行分类。
基因功能注释的研究内容:目前,我们利用四个常用的数据库进行基因功能注释。使用的数据库有Uniprot蛋白质序列数据库、KEGG生物学通路数据库、Interpro蛋白质家族数据库和Gene Ontology基因功能注释数据库。
1):与Uniprot蛋白质序列数据库比对,获得序列的初步信息。
2):与KEGG数据库比对,预测蛋白质可能具有的生物学通路信息。
3):与Interpro数据库比对将获得蛋白质的保守性序列,模序和结构域等。
4):预测蛋白质的功能。Interpro进一步建立了与Gene Ontology的交互系统:Interpro2GO。该系统记录了每个蛋白质家族与Gene Ontology中的功能节点的对应关系,我们通过此系统便能预测蛋白质执行的生物学功能。
基因功能注释中拟解决的关键技术难点:
目前我们的功能注释工作是建立在比对的基础上,这将会带来两个比较大的问题。首先,此方法严重依赖于外部数据,对某些研究较少的物种限制很大。其次,序列相似并不表示实际生物学功能相似,考虑引入序列比对之外的方法,进一步完善基因功能注释工作。
基因功能注释的研究方向:考虑引入序列比对之外的数据(如蛋白质互作网络、基因表达谱等),利用概率模型算法进行整合,完善基因功能注释工作。
以上就是关于学习生物信息学有哪些比较好的网站或论坛全部的内容,包括:学习生物信息学有哪些比较好的网站或论坛、高通量数据提交到ncbi的文件能不能撤回、在你看来学习生物信息学有哪些比较好的网站或论坛等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)