如何研究lncrna与mrna的关系?

如何研究lncrna与mrna的关系?,第1张

1.LncRNA简要

LncRNA是一类转录本长度超过200nt的RNA,它们本身并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平。生物体内含量相相当丰富,约占RNA的4-9%(mRNA约占1-2%)。LncRNA的组织特异性及特定的细胞定位,显示lncRNA受到高度严谨的调控,目前已知其与发育、干细胞维持、癌症及一些疾病相关。虽然近年来随着基因芯片及第二代高通量测序技术的广泛运用,lncRNA不断被发现,但此类转录本的确切功能还未知。目前市场上的lncRNA芯片通常将lncRNA与mRNA设计在一起,RNASeq数据中也包含lncRNA, mRNA序列,因此可以通过分析lncRNA与mRNA表达相关性对lncRNA进行功能注释。

2.分析流程图

3 分析内容

①计算LncRNA与mRNA表达相关性,根据设定的域值筛选lncRNA与mRNA关系对,构建LncRNA与mRNA共表达网络,如下是全局网络

②基于lncRNA与mRNA表达相关性以及lncRNA与mRNA基因组位置近邻关系,得到lncRNA的潜在靶标基因,对差异表达的lncRNA靶标基因进行功能注释以及功能富集分析,如下是功能富集的GO的Barplot图和差异lncRNA的Heatmap图

③研究lncRNA与mRNA的共表达网络的拓扑学特性,基于度筛选网络拓扑上重要的lncRNA,这些lncRNA极有可能是与研究背景相关的lncRNA,如下是重要lncRNA与mRNA的局部共表达子网络

④客户提供研究背景相关一组基因,根据表达相关性可以找出与这组基因相关的lncRNA,从而构建出感兴趣的共表达网络。通过构建的共表达网络能进一步找到感兴趣的 hub lncRNA。

lncRNA深度挖掘分析

一、差异lncRNA靶基因预测

lncRNA的靶基因较为复杂,主要分为正式和反式两种作用机制lncRNA作用机制与miRNA类似,均可以通过调控相应的mRNA来行使功能,所以靶基因的预测在科学研究中都显得非常必要。

二、靶基因Gene Ontology分析

我们将靶基因向gene ontology数据库的各节点映射,计算每个节点的基因数目

三、靶基因Pathway分析

信号通路分析需要完备的注释信息支持,通过整合KEGG、Biocarta、Reactome等多个数据库的信息可以精确检验来进行Pathway的显著性分析。

四、lncRNA与调控基因的表达机制

通过整合lncRNA的信息和靶基因之间的关系,我们可以得到一个lncRNA与靶基因之间的调控网络图

五、 转录因子结合位点预测

对于差异表达lncRNA,提取转录起始位点上下游序列,使用预测程序对其转录因子结合位点进行预测

六、基因关联分析

现在市面上的lncRNA芯片均含有mRNA的表达探针,通过将lncRNA的靶基因分析结果与芯片上mRNA的表达结果做关联分析,可以更进一步的分析lncRNA的功能。

七、信号通路调控网络构建:

实验中基因同时参与了很多Pathway,通过构建信号通路调控网络,从宏观层面看到Pathway之间的信号传递关系,在多个显著性Pathway中发现受实验影响的核心Pathway,以及实验影响的信号通路之间的调控机理。

八、lncRNA的功能分析

根据lncRNA最新的功能数据库,利用生物信息学工具,做出Function-Tar-Net图表,从而得出lncRNA与功能的关系

近年来,单细胞RNA测序极大地提高了我们对生物系统的理解。在研究斑马鱼、青蛙和涡虫等生物细胞的异质性时,我们已经能够发现以前未知的细胞群,这项技术的巨大潜力激发了计算生物学家开发一系列分析工具,尽管开发者在保证单一工具的可用性方面做出了很大努力,但由于该领域相对不成熟,对于单细胞数据分析的新手来说,入门的障碍是缺乏标准指南。

在本文中,提供了 scRNA-seq 分析的参考教程,并概述了当前的最佳实践,为未来的分析标准化奠定了基础,分析标准化的挑战来自于越来越多的可用分析方法,截至 2019 年 3 月 7 日有 385 种工具和数据集规模的爆炸性增长,因此,我们一直在寻找新的方法来分析和处理我们的数据,例如,最近有一些方法可以预测细胞分化过程中的命运选择。

虽然分析工具的不断改进有助于产生新的科学推论,但也使得分析过程的标准化变得更加复杂,标准化的另一个挑战在于软件技术,用于 scRNA-seq 数据的分析工具是用不同的编程语言编写的——最重要的是 R 和 Python,虽然对跨编程语言的支持越来越多,但所使用的编程语言确实会影响分析工具的选择。 

Seurat、Scatter 或 Scanpy 等常用工具提供了一个集成环境来开发流程并包含大量分析工具,但是,由于维护需要,这些平台限制他们使用以各自的编程语言开发的工具,基于板的技术将细胞分成板上的孔,基于液滴的方法依赖于微流体液滴来捕获单个细胞,在这两种情况下,可能会出现一些问题,例如多个细胞被捕获在一起,有可能是双峰或是多重峰。

现在做转录组测序,看看差异基因,做做富集分析,再讨论下差异基因功能与自己研究性状或处理之间的关系,最后加简单的qPCR验证,这样的数据发SCI影响因子越来越低了。必须增加新的分析内容才能有所突破。今天给大家介绍一个能给文章增色的分析内容--基因共表达网络分析(WGCNA),该分析对样品数有一定要求,建议不少于15个,不过现在测序便宜了,达到这个数量已经不是难事了。下面就给大家介绍两篇利用WGCNA分析基因共表达网络来提升文章档次。

文章1:

题目:

Identification of regulatory networks and hub genes controlling soybean seed set and size using RNA sequencing analysis

期刊: Journal of Experimental Botany

IF: 53

性状: 大豆籽粒大小

实验材料

大豆籽粒的大小是一个非常重要的农艺性状,直接关系到大豆产量,找到决定大豆籽粒大小的关键调控基因对后续的分子育种具有重要意义,因此作者,选取了两个大豆品种做转录组分析,分别是:大籽粒Wandou 28 (V1),小籽粒Peixian Layanghuang (V2),取样时期为三个时期:seed set (S1), seed growth (S2), and early seed maturation (S3),其中前两个时期的取样部位分别为:Seed pod with whole seed(S1),Whole seed(S2),S3时期取了两个部位分别为:Seed coat(S3-1),Seed cotyledon(S3-2),两个品种每个样品三个生物学重复共24个样品。下图为种子发育不同时期照片以及籽粒大小差异统计结果:

转录组分析结果:

对转录组分析结果中每个基因做表达量分析,计算每个基因的表达量FPKM,如果基因的表达量,也就是FPKM值<05,认为基因无表达,去除这部分基因。然后,统计每个时期不同品种基因表达量高低的分布图,大约一半的基因处于低表达水平05<=FPKM<=5(下图A);pca分析发现样品按照不同发育时期聚类在一起,而不是按照不同品种聚类,说明发育时期是决定基因表达谱的关键因素,而性状的不同引起的转录表达差异较小(下图B),下图C展示的为不同品种,不同发育时期之间表达基因的韦恩图,在不同的发育时期都表达的基因还是占绝大多数:

差异基因分析:

差异基因分析,下图A按相同发育时期,不同的品种之间差异比较,下图B为不同发育时期之间的差异比较,红色数字代表上调差异基因数量,黑色代表下调的差异基因数量:

差异基因功能注释分析,主要针对决定籽粒大小的差异基因的比较,也就是上图A中的差异基因进行功能分析,挑出一些代表基因,看一下他的功能和表达量,例如,V1S1  vs V2S1差异比较当中,共找到973个差异基因,其中489个基因上调,484个基因下调,上调的代表基因的功能及表达量表格如下图所示,其中有转录因子,植物荷尔蒙(生长素等),脂肪酸代谢,蛋白激酶活性,类黄酮生物合成等功能相关的基因,总之挑选与种子果实等发育生长相关的基因来展示,其他还有好几个表格,也是关于上图A中不同时期的上调下调基因的功能注释表格,展示类似,我这里就不详细说明了,感兴趣的可以查看原文:

不同发育时期差异比较:

不同的发育时期差异基因比较,分别绘制每个发育时期高表达的基因的热图,差异基因很多,作者挑选的都是和发育相关,或者和重要农艺性状相关的差异基因做热图,例如转录因子相关的基因,荷尔蒙相关的,脂肪酸代谢,淀粉糖代谢等相关的基因。

WGCNA分析找到调控籽粒大小的关键hub基因:

首先对所有样品所有基因的表达量矩阵进行过滤,删除表达量低的基因(FPKM<005),一共有7359个基因用于基因共表达网络构建,总共分析得到12个共表达基因模块下图A(聚类树每一个枝代表一个基因,下面不同的颜色划分代表基因所处不同的模块),其中有4个模块和种子大小相关下图B,例如,lightyellow模块,所有的V1的不同时期的样品与这个模块高度相关,再例如green模块,有793个基因,不管是V1样品,还是V2样品,这个模块都与S1相关等等。

4个关键模块基因共表达网络构建发现hub基因:

导出WGCNA共表达网络分析结果,绘制模块当中基因的表达量热图和网络图,左边热图从上到下分别代表:green module(A),darkturquoise module(C),black module(E),lightyellow module(G),右边网络图分别对应共表达网络,其中红颜色标记的为连通性较高的hub基因。通过研究这些hub基因的功能发现:这些网络中的关键hub基因,包括MYB家族转录因子,荷尔蒙(ABA,CK,BA)响应因子,细胞色素P450,BR信号激酶等等,都可能与籽粒的大小相关。

文章2:

题目:

Global transcriptome and co-expression network analyses reveal cultivar-specific molecular signatures associated with seed development and seed size/weight determination in chickpea analysis

期刊: The Plant Journal

IF: 57

性状: 鹰嘴豆籽粒大小

实验材料与方法

这篇文章与上一篇文章思路几乎一致,只是研究的物种变成了鹰嘴豆。同样的,也是选取了两个籽粒大小差异明显的栽培品种:Himchana 1 (small-seeded) and JGK 3 (large-seeded),取样时期为每个样品7个时期S1-S7,分别为授粉后5, 9, 12, 19, 25, 30 and 40 天(day after pollination DAP),还测了一下叶片的转录组,并取3个生物学重复,共48个样品。不同发育时期和种子重量差异结果如下:

转录组测序结果:

利用转录组测序所有基因以及所有样品的表达矩阵做样品间的相关性分析和PCA聚类分析,从中可以发现,相同的发育状态或者组织聚类在一起,说明他们之间具有较强的相关性。

差异基因比较分析:

作者主要比较了相同发育状态不同品种之间的转录组差异比较,差异基因的上下调数量和其中转录因子的数量图a,另外还统计差异基因中不同类型转录因子的数量展示图b,图c为不同时期差异基因的富集结果,颜色越深说明在该功能上越富集,最后S3时期差异基因在mapman中的Metabolic pathways做了富集分析,可以将差异基因的表达量变化情况展示在通路图中。

基因共表达网络分析

首先作者将不同的样品按籽粒大小不同品种分开,分别用WGCNA做共表达网络分析,其中在Himchana 1样品中共找到27个模块(a),在JGK 3样品中找到21个模块(b)如下图所示:

模块与样品之间相关性分析,从而发现不同发育时期的特有的基因模块,这部分也是分开做,图中颜色越红的方框对应的模块和样品具有较高的相关性,左边一半为Himchana 1中模块与发育时期相关图,右边一半为JGK3模块与发育时期相关结果,然后得到每个样品中每个时期对应的最相关的模块,(如下图):

结合上一步的分析结果,再来分析两个品种各自得到的模块之间的相关性,理论上讲,虽然品种不同但是各自品种相同发育时期的对应的特有模块应该具有较高的相关性,例如,在JGK 3样品中左下角黑色模块与S6发育时期相关,通过相关性分析,这个模块与Himchana 1中的darkorange相关,正好呢darkorange模块在Himchana 1 中也与S6相关(下图中红紫色方框);同样的道理其他很多模块都有这样的相关性(下图中红色方框),但是在Himchana 1 中有个orange模块不与JGK 3中任何一个模块相关,作者推断这个特殊的模块很可能与籽粒大小相关,当然还有其他几个模块也有类似的现象。作者进一步研究这些模块中基因表达情况发现里面很多基因的表达量(在S3 和 S5时期)在不同的品种中具有相反的表达,之后作者进一步研究这些模块里面基因的相关功能等等:

总结:

上述两篇文章都是植物当中普通的转录组文章,由于添加了WGCNA分析从另一个角度分析与性状相关的基因,文章的档次提升不少。想得到WGCNA的分析技能吗,点击《 WGCNA视频教学视频 》即可观看:手把手教学包你学会。

更多生物信息课程:

1 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接: 基因家族分析实 *** 课程 、 基因家族文献思路解读

2 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接: 转录组(有参)结果解读 ; 转录组(无参)结果解读

3 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接: WGCNA-加权基因共表达网络分析

4 转录组数据怎么挖掘?学习链接: 转录组标准分析后的数据挖掘 、 转录组文献解读

5  微生物16S/ITS/18S分析原理及结果解读 、 OTU网络图绘制 、 cytoscape与网络图绘制课程

6 生物信息入门到精通必修基础课,学习链接: linux系统使用 、 perl入门到精通 、 perl语言高级 、 R语言画图

7 医学相关数据挖掘课程,不用做实验也能发文章,学习链接: TCGA-差异基因分析 、 GEO芯片数据挖掘 、 GSEA富集分析课程 、 TCGA临床数据生存分析 、 TCGA-转录因子分析 、 TCGA-ceRNA调控网络分析

8其他课程链接: 二代测序转录组数据自主分析 、 NCBI数据上传 、 二代测序数据解读 。

遗传学 (Genetics)—— 研究生物的遗传与变异的科学,研究基因的结构、功能及其变异、传递和表达规律的学科。

表观遗传学 (epigenetics)—— 遗传学之外的,即不依赖于DNA序列的,而且可以稳定遗传的研究 。

粗浅的总结: 

    1 DNA 水平的变化, 属于遗传学范畴;  因DNA修饰或转录调控等产生的(可能遗传的)影响个体表型的变化, 属于表观遗传范畴;

    2 遗传学多研究DNA水平的变化, 例如: SNV(DNA突变)与疾病; 表观遗传学则假定基因组相同的情况下, 研究DNA的修视/转录调控/产物与表型之间的宏观联系, 进而反推DNA的遗传变异, 预测转录调控网络, 基因功能与表型关系预测等 ; 

决定细胞类型的不是基因本身,而是基因表达模式,通过细胞分裂来传递和稳定地维持具有组织和细胞特异性的基因表达模式对于整个机体的结构和功能协调是至关重要的。

基因表达模式在细胞世代之间的可遗传性并不依赖细胞内DNA的序列信息。

基因表达模式有表观遗传修饰决定。也是表观遗传修视的直观体现;

DNA甲基化 : DNA上的胞嘧啶第5位碳原子和甲基间的共价结合;

基因组印记 : 染色体特定片段中来源于亲本的表观遗传标记;

组蛋白共价修饰 : 组蛋白尾部区域发生形式多样的翻译后修饰(乙酰化、磷酸化、甲基化、泛蛋白化以及ADP核糖基化) ;

染色质重塑 : 基因表达的复制和重组等过程中,染色质的包装状态、核小体中组蛋白以及对应DNA分子发生改变;

基因组中非编码RNA : 通过某些机制实现对基因转录的调控,如RNA干扰(RNAi);

微小RNA(miRNA)

反义RNA : 与mRNA互补的RNA分子, 也包括与其它RNA互补的RNA分子。

内含子、核糖开关等

鸣谢: 来源于网络的;

2017年发表在Nature Methods杂志上的 SCENIC 算法,利用单细胞RNA-seq数据,同时进行基因调控网络重建和细胞状态鉴定,应用于肿瘤和小鼠大脑单细胞图谱数据,提出并证明了 顺式调控网络分析能够用于指导转录因子和细胞状态的鉴定 。SCENIC通过使用生物学驱动的features自动清除肿瘤样本特异性等批次效应。

我们要深刻了解SCENIC并应用在我们的项目上就要对 基因调控网络(GRN, gene regulatory network) 的背景有一些认识。细胞的转录状态来自潜在的基因调控网络,GRN由数量有限的转录因子(TFs)和辅因子相互调节及调节下游靶基因构成。

单细胞转录组分析的最新进展为高分辨率识别转录状态和状态之间的过渡提供了令人兴奋的机会。例如,在分化过程中针对单细胞RNA-seq进行优化的统计和生物信息学方法带来了新的生物学见解。但是, 稳定细胞状态下的特异性和强健的(robust)GRN是否能够被确定还尚不清楚 。

鉴于在单细胞水平来做这件事情,这可能确实具有挑战性。由于转录爆发和其他来源的基因表达的随机变化,基因表达可能会与TF输入的动力学部分断开(不相关)。目前已经有一些从单细胞RNA-seq数据推断共表达网络的方法发表,但是,这些方法未使用调控序列(regulatory sequence)分析来预测TF与靶基因之间的相互作用。

作者认为,将顺式调控序列与单细胞基因表达连接可以克服缺失(基因表达丰度检测不到)和技术多样性,从而优化细胞状态的发现和表征。鉴于此,作者开发了单细胞调控网络推断和聚类(SCENIC)来绘制GRN,通过评估每个细胞中GRN的活性,来识别稳定的细胞状态。

SCENIC workflow 包含3个主要步骤:

使用RcisTarget是SCENIC不同于大多共表达算法的重要区别 。由于GENIE3模块仅基于共表达,因此结果可能包含许多误报和间接target,为了鉴定推断的直接结合的靶标基因,使用RcisTarget对每个共表达模块进行顺式调控基序(motif)分析。 仅保留具有正确基因上游调节子且显着富集TF motif的模块,并对它们进行修剪以除去缺乏基序支持的间接靶标,这些处理后的模块才称为regulon。

作为SCENIC的一部分,作者开发了AUCell算法来对每个细胞中的每个regulon的活性进行评分。

对于一个给定的regulon,通过比较所有细胞间的AUCell打分值,我们可以识别哪些细胞具有更显著高的regulon活性。通过卡阈值得到的二元活性矩阵使矩阵维数减少(可理解为只有 0|1,on|off),对于下游分析很有用。 例如,基于regulon二元活性矩阵的聚类,可以根据某个调控子网络(regulon)的活性来识别细胞群类型和细胞状态。由于regulon是整体评分的,而不是使用单个基因的表达,因此这种方法对于个别基因的dropouts很有效。

作者对SCENIC进行了 准确性 和 鲁棒性 评估。

作者拿成年小鼠大脑的已知细胞类型的scRNA-seq数据集来测试SCENIC,来评估其准确性。

分析了1,046个初始共表达模块中的151个Regulons,这些Regulons包含对应TF的显着富集的motif(占初始TFs的7%)。每个细胞的Regulon活性评分确定了预期的细胞类型( 上图d,e )以及每种细胞类型的潜在主调控因子的列表(例如下图中的小胶质细胞网络),细胞聚类的结果比一些专用的单细胞聚类方法( SC3 )要准确。

作者用以下方式分析了小鼠大脑单细胞RNA-seq图谱数据:

SCENIC鉴定出了仅由少量细胞代表的细胞类型(例如,来自小胶质细胞,星形胶质细胞或中间神经元的2至6个细胞;下图)。此外,预测的TFs与细胞类型的关联也与先前已知的一致,并且此准确性优于标准分析流程。

为了验证鉴定小鼠interneurons的Dlx1/2调控网络,作者分析了人脑的sNuc-Seq(Single nuclei RNA-Seq)数据集。

在人类脑sNuc-Seq数据集上,SCENIC也鉴定出由DLX1/2强烈驱动的interneurons细胞群,该群具有与小鼠相同的motif,并且识别出一组保守的靶标,包括DLX1本身。

接下来,作者将这种跨物种分析扩展到其他细胞类型。 与基于归一化表达的标准聚类(产生强大的物种驱动聚类)不同,SCENIC分析有效地按细胞类型对细胞进行了分组(下图)。 这表明网络活性的评分是可靠的(robust),可以用来克服批处理或测序方法等技术影响。

由于肿瘤特异性突变和复杂的基因组畸变,癌细胞状态的鉴定比正常细胞状态更具挑战性。一般的标准聚类会通过表达矩阵将细胞按其肿瘤起源分组(各个样品聚成一类),但SCENIC的结果揭示了不同的图景。

以下是作者将SCENIC用在 少突胶质细胞瘤 (来自 6个肿瘤的4,043个细胞 )和 黑素瘤 (来自 14个样本的1,252个细胞 )的scRNA-seq数据集上的结果。

对于少突胶质细胞瘤(oligodendroglioma),在所以肿瘤细胞中鉴定出三种癌细胞状态(上图c-e),每种状态均由预期的TF驱动,包括:

此外,作者将扩散映射(Diffusion Maps)应用于二元SCENIC矩阵(上上图)重建了从stem-like到oligodendrocyte-like 和 astrocyte-like分支的分化轨迹。值得注意的是,与正常oligodendrocyte分化相比,此路径代表不同的“轨迹”。

在黑素瘤(melanoma)数据上观察到了类似的肿瘤效应校正,其中SCENIC识别了跨肿瘤的细胞群。包括一群与少突胶质细胞瘤中类似的TF驱动的周期细胞(例如,E2F1/2/8 和 MYBL2)

黑色素瘤细胞大致分为两组:

SCENIC在MITFlow state的细胞群下鉴定到了两个新的TFs:

NFATC2是JNK/MAPK途径中的转录阻遏物,参与黑色素瘤去分化和免疫逃逸;

NFIB与毛囊和黑素细胞干细胞的干细胞行为有关,它在小细胞肺癌转移过程中起着重要作用。

为了进一步探索NFATC2和NFIB在MITFlow状态下的潜在作用,作者对25个具有不同肿瘤进展的黑色素瘤标本进行了免疫组织化学分析。

作者发现NFIB和NFATC2在前哨淋巴结(sentinel lymph nodes)中表达最高,这与ZEB1表达共定位,这与ZEB1表达共定位,这表明这些markers的表达与最早的转移事件之间存在关系。

在A375黑色素瘤细胞系,NFATC2和NFIB的表达很高,当使用siRNA敲除NFATC2时,作者发现NFATC2调节子中的基因被显着上调。这与先前证实的NFATC2作为阻遏物是一致的。此外参与细胞粘附、细胞外基质和几个先前发表的代表黑色素瘤浸润状态调控的基因也被上调。这表明NFATC2确实可能在疾病进展中起重要作用。作为黑色素瘤regulons的第二次验证,作者使用ChIP-seq数据确定了MITF和STAT的预测靶标。

随着单细胞数据集大小的增加,作者建议两种补充方法来扩展网络推断:

SCENIC是一种普遍适用的分析scRNA-seq数据的方法,利用TF和顺式调控序列来指导细胞状态的发现。文章的结果表明,GRNs是确定细胞状态的可靠方法,并且scRNA-seq数据非常适合跟踪基因调控过程,在基因调控过程中特定组合的TFs驱动细胞特异性的转录组。

作者开发的pyscenic使用教程请参考: https://pyscenicreadthedocsio/en/latest/ 或者查看 pyscenic github

最近发表的 单细胞转录组测序绘制小鼠内皮细胞精细图谱 分析研究转录因子在不同ECs中的调控作用,发现了转录因子调控网络呈现了组织特异性。

TF是转录因子,调控转录产物的,可以是mRNA,也是非编码RNA(例如miRNA),也可是其他。

miRNA也可以作用于mRNA,影响mRNA的表达。

反正,应该是一个调控的网络。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/12181203.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存