同意您对NM的理解,NM是表示RNA,SNP所对应的NM往往提示SNP的“functional information”(如下例), 通过其对应的NM,您可以知道SNP与哪些transcripts有关。
实际上,真正可用的基因只占人类基因组的3%,其余97%都是非编码序列,但是非编码序列也是可以表达的,表达产物就是非编码RNA(ncRNA)。
人类基因组中约93%的DNA是能转录为RNA的,其中2%是mRNA,98%是非编码RNA(ncRNA)。
RNA转录本分类
非编码RNA(ncRNA) 可以分为 调控RNA 和 管家RNA 两种。
调控RNA
miRNA: 微RNA (microRNA),18-25 nt( nt =nucleotide核糖核苷酸),单链
siRNA: 小干扰RNA (smallinterfering RNA),21-23 nt,双链
piRNA: piwi相互作用RNA (piwi-interacting RNA),26-35 nt,单链,这是动物生殖细胞所特有的小RNA,转座子沉默
lncRNA: 长非编码RNA (long non-coding RNA),>500 nt,比如Xist、PCGEM1等
管家RNA
rRNA: 核糖体RNA (ribosome RNA),26-35 nt,单链,是构成核糖体的组成成分,有多种不同的大小,如28S、18S、5S等
tRNA: 转运RNA (transfer RNA),70-80 nt,单链,三叶草构型,在蛋白质合成过程中起到转运氨基酸的作用,对于不同的物种,其rRNA分子的大小和种类都可能有所不同
snoRNA: 核仁小RNA (smallnucleolar RNA)
sacRNA: Small Cajal body-specific RNAs,是一种特殊的核仁小RNA,专一位于卡哈尔体(Cajal body)上,可以催化核糖核蛋白的生成
Telomerase RNA: 端粒酶RNA,是端粒酶的一部分,在端粒延伸过程中,作为端粒继续延伸的模板,由端粒酶催化实现端粒的延长
热门ncRNA——lncRNA、miRNA、circleRNA
目前研究最热门的ncRNA主要集中在lncRNA、miRNA、circleRNA三种。
IncRNA : lncRNA可通过折叠形成一定的空间结构与多种蛋白互作,也可通过碱基互补配对与其它核酸进行识别,这种识别又可将蛋白引导至特定序列位点,这些特点使得lncRNA在 发育和癌症 中的功能发挥得更加丰富。
lncRNA
作为RNA诱饵,结合转录因子,干扰其与基因promoter区域的结合,从而调控转录;作为分子海绵,吸附miRNA,抑制其与mRNA的结合,使得mRNA免于降解;作为蛋白互作的支架或桥梁,影响蛋白多聚物的形成,调控蛋白活性;招募染色质修饰因子,改变染色质的修饰水平,从而影响基因的转录和表达;与mRNA配对结合,抑制翻译;与mRNA配对结合,影响剪切;与mRNA配对结合,影响mRNA的稳定性。
circleRNA : circRNA分子呈封闭环状结构,无游离5‘和3’末端,不易被核酸外切酶RNaseR降解,比线性RNA更加稳定。 长度约200-2000bp,主要长度分布在500bp左右。
circleRNA
circleRNA大多数来源于外显子,少部分由内含子直接环化形成。其形成有四种模式: 套索驱动的环化、内含子碱基配对驱动环化、单个内含子成环、RNA结合蛋白驱动环化。
它可以通过竞争性结合miRNA、线性亲本基因的转录,甚至是编码多肽来发挥生物学功能。
circRNA作为ceRNA(内源竞争性RNA)竞争性结合miRNA;circRNA结合RNA结合蛋白(RBP)以形成RNA-蛋白复合物(RPC),调控线性亲本基因的转录;编码功能,circRNA具有内部核糖体进入位点(IRES),能合成多肽。
miRNA : miRNA一类由内源基因编码的非编码单链RNA分子,其长度约为19-25nt,其在肿瘤发生发展、生物发育、器官形成、病毒防御、表观调控以及代谢等方面起着极其重要的调控作用。
miRNA
RNA-seq结果解读
目前在生信里面应用最为广泛和成熟的RNA-seq技术就是转录组测序,狭义上也就是指的全部mRNA的表达水平,而RNA-seq完成后会生成很多的数据和,如火山图、韦恩图、聚类热图等。
火山图(Volcano Plot) 显示了两个重要的指标: fold change和校正后的p value,利用t检验分析出两样本间显著差异表达的基因后,以log2(fold change)为横坐标,以t检验显著性检验p值的负对数-log10(adj p-value)为纵坐标。
红色代表基因上调,绿色代表基因下调。
横轴: fold change代表检测样本对对照样本(TS vs CK)的RNA表达量倍数(商)。图中当横轴为1时,代表表达量为2倍关系(log2(2)=1)。
纵轴: padj就是adj p-value(调整p值),代表差异是否具有显著性,统计学中,以p<005代表差异具备显著性,由于-log10(005)=13,所以图示中13以上的点代表差异具有显著性。
韦恩图(Vene PLot) 用于显示元素集合重叠区域的图示。
在RNA-seq项目中,每个椭圆表示一个比较集合(处理组 vs 对照组)中的差异基因,椭圆重叠区域的数字表示对应的多个比较集合之间的共有差异基因个数。如图示,集合A、B、C、D共有差异基因有44个。
聚类热图(Clustered HeatMap) 可用于判断不同实验条件下差异基因的表达模式,热力值表示该点的基因表达。
红色: 表示基因表达水平高;蓝色: 表示基因表达水平低。
横轴代表不同的实验处理条件/样本(cell),纵轴代表差异基因(gene),并且 差异基因 已经进行了聚类分组, 表达模式 或 相近 的差异基因会被聚类为一组。
长链非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码 RNA。
非编码RNA是指不能翻译为蛋白的功能性RNA分子,其中常见的具调控作用的非编码RNA包括小干涉RNA、miRNA、piRNA以及长链非编码RNA。
IncRNA是DNA转录来的,不翻译为蛋白。
给你一个大致的筛选标准:
(1)选择长度≥200bp,Exon个数≥2的转录本;
(2)通过计算每条转录本的Reads覆盖度,选择Reads最小覆盖
度≥3的转录本;
(3)去除已知的mRNA转录本(通过和已有注释文件比对)
(4)去除已知的非编码RNA转录本(比对一些已有的lncRNA数据库了)
(5)去除有蛋白家族的转录本(能够注释到Pfam数据库);
(6)去除有编码潜能的RNA(CNCI,CPC,这两款软件都可以给出一个编码能力的预测)
1.LncRNA简要
LncRNA是一类转录本长度超过200nt的RNA,它们本身并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平。生物体内含量相相当丰富,约占RNA的4-9%(mRNA约占1-2%)。LncRNA的组织特异性及特定的细胞定位,显示lncRNA受到高度严谨的调控,目前已知其与发育、干细胞维持、癌症及一些疾病相关。虽然近年来随着基因芯片及第二代高通量测序技术的广泛运用,lncRNA不断被发现,但此类转录本的确切功能还未知。目前市场上的lncRNA芯片通常将lncRNA与mRNA设计在一起,RNASeq数据中也包含lncRNA, mRNA序列,因此可以通过分析lncRNA与mRNA表达相关性对lncRNA进行功能注释。
2.分析流程图
3 分析内容
①计算LncRNA与mRNA表达相关性,根据设定的域值筛选lncRNA与mRNA关系对,构建LncRNA与mRNA共表达网络,如下是全局网络
②基于lncRNA与mRNA表达相关性以及lncRNA与mRNA基因组位置近邻关系,得到lncRNA的潜在靶标基因,对差异表达的lncRNA靶标基因进行功能注释以及功能富集分析,如下是功能富集的GO的Barplot图和差异lncRNA的Heatmap图
③研究lncRNA与mRNA的共表达网络的拓扑学特性,基于度筛选网络拓扑上重要的lncRNA,这些lncRNA极有可能是与研究背景相关的lncRNA,如下是重要lncRNA与mRNA的局部共表达子网络
④客户提供研究背景相关一组基因,根据表达相关性可以找出与这组基因相关的lncRNA,从而构建出感兴趣的共表达网络。通过构建的共表达网络能进一步找到感兴趣的 hub lncRNA。
lncRNA深度挖掘分析
一、差异lncRNA靶基因预测
lncRNA的靶基因较为复杂,主要分为正式和反式两种作用机制lncRNA作用机制与miRNA类似,均可以通过调控相应的mRNA来行使功能,所以靶基因的预测在科学研究中都显得非常必要。
二、靶基因Gene Ontology分析
我们将靶基因向gene ontology数据库的各节点映射,计算每个节点的基因数目
三、靶基因Pathway分析
信号通路分析需要完备的注释信息支持,通过整合KEGG、Biocarta、Reactome等多个数据库的信息可以精确检验来进行Pathway的显著性分析。
四、lncRNA与调控基因的表达机制
通过整合lncRNA的信息和靶基因之间的关系,我们可以得到一个lncRNA与靶基因之间的调控网络图
五、 转录因子结合位点预测
对于差异表达lncRNA,提取转录起始位点上下游序列,使用预测程序对其转录因子结合位点进行预测
六、基因关联分析
现在市面上的lncRNA芯片均含有mRNA的表达探针,通过将lncRNA的靶基因分析结果与芯片上mRNA的表达结果做关联分析,可以更进一步的分析lncRNA的功能。
七、信号通路调控网络构建:
实验中基因同时参与了很多Pathway,通过构建信号通路调控网络,从宏观层面看到Pathway之间的信号传递关系,在多个显著性Pathway中发现受实验影响的核心Pathway,以及实验影响的信号通路之间的调控机理。
八、lncRNA的功能分析
根据lncRNA最新的功能数据库,利用生物信息学工具,做出Function-Tar-Net图表,从而得出lncRNA与功能的关系
在200-800个碱基之间。EST是一种通过单次测序获得基因或转录本序列信息的方法。由于EST序列是从RNA中反转录合成的cDNA序列,因此其长度一般在200-800个碱基之间。实际上,EST序列的长度取决于测序技术和样本来源等多种因素,不同来源和不同测序方法得到的EST序列长度也会有所不同。EST序列的长度越长,其代表的基因信息越完整,对基因鉴定和注释的质量也会更高。
以上就是关于如何向dbSNP数据库提交新发现的SNP位点全部的内容,包括:如何向dbSNP数据库提交新发现的SNP位点、中心法则2——RNA(核糖核酸)、lncRNA是怎么来的 是DNA转录吗还是本身就有等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)