SC3 聚类结果中的几张热图

SC3 聚类结果中的几张热图,第1张

我们之前在 SC3 : 单细胞转录组聚类分析R包 中介绍过SC3聚类算法,对于细胞异质性未知的样本,聚成几个类我们不知道,这时候可以多尝试几种聚类策略。SC3这个时候就派上用场了。

SC3在可视化上面为我们贡献了几张热图,那么他们都是什么意思呢?

共识矩阵是一个N×N矩阵,其中N是输入数据集中的细胞数。根据所有聚类参数组合的聚类结果的平均值,表示细胞之间的相似性。similarity 0(蓝色)表示这两个细胞总是被分配到不同的群。相反,similarity 1(红色)表示这两个细胞总是被分配到相同的群。共识矩阵采用层次聚类方法进行聚类,具有对角块结构。直观地说,当所有对角块都是完全红色,所有非对角元素都是完全蓝色时,就可以实现完美的聚类。

表达热图表示基因以kmeans进行聚类,k = 100(左侧为树状图),heatmap表示基因簇中心在log2- scale后的表达水平。

差异基因的计算采用非参数Kruskal-Wallis检验。SC3提供了调整p值< 001的所有差异表达基因的列表,并绘制了p值最低的50个基因的基因表达谱。值得注意的是,聚类后的差异表达计算可能会在p值的分布中引入偏差,因此我们建议仅使用p值对基因进行排序。

为了找到标记基因,每个基因都建立一个基于平均聚类表达值的二元分类器。然后利用基因表达序列计算分类器预测,ROC曲线下的面积用来量化预测的准确性。利用Wilcoxon符号秩检验为每个基因分配一个p值。默认选择ROC曲线下面积(AUROC)为> 085且p值< 001的基因,在此heatmap中显示每个簇的前10个标记基因。

单细胞绘图系列:

稍作优化(调整热图颜色+调整细胞类型标签颜色,最好与UMAP图一致)

scale_fill_gradientn()系列函数用法见: ggplot2点图

更改横轴顺序(根据实际需要)

做一下美化,调整一下颜色

完成~

很多时候,我们做完转录组,会想着看看样品与样品之间的表达相关性如何?依此,可以看看是否存在异常样品,也或许可以找到一些生物学相关问题。常常,我会使用 R 语言的 Corr 函数,然后用 pheatmap 出个图。当然,这个两行命令就解决了。但是呢 pheatmap 出的热图调整起来还是麻烦。为了偷懒,我决定花点时间,在 TBtools 中直接写一个。因为这个功能比较简单,其实就是读取表达量矩阵,计算样品间相关系数,用系数矩阵绘制热图。

感觉就是十来分钟的事情,真的太简单。打界面麻烦了点,不过我也有些好的组件,所以,其实也简单。结果如下,

从界面来看,使用更简单,只需要给一个基因表达量矩阵即可。

接下来就是按照热图常见 *** 作,做个微调,得到图稿如下

Emmm,又是一个简单的小工具。事实上,我很久以前也有想过写这个,但是呢用不上。这次写的原因简单,我觉得原有的方式出来的热图,不是我要的效果,因为不够好看。
但是,TBtools 出的热图,好看!而且,细节容易调整。

热图概念:热图是一个以颜色变化来显示数据的矩阵,可以简单地聚合大量数据,并使用一种渐进的色带直观地展现空间数据的相对大小。

热图在生物学中的应用:生物学中热图经常用于展示多个基因在不同样本中的表达水平。然后可以通过聚类等方式查看不同组(如疾病组和对照组)特有的形式。热图还可以用于展示其他物质的丰度比如微生物的相对丰度、代谢组不同物质的含量等等。当然,另一个热图的重要用处就是展现不同指标、不同样本等之间的相关性。

pheatmap画图

基因fpkm表达量热图

情况1:一类分组:KO,OE,WT

情况2:两类分组

两类分组自定义颜色

鲜艳的热图就这样完成啦!

如果您需要组学服务,请联系我们!

基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。据此可重组出靶核酸的序列。
原位合成是一种制作基因芯片的方法,是原来用于电子芯片制作的光刻法转为核酸序列的合成技术。利用光罩控制反应位置,将核苷酸分子依序列一个一个接上去;可大量生产超高密度的芯片。由于制程与光罩成本等因素,这种方法做出的探针长度约在25-mer以下;因此同一个基因需要多个探针对应,以避免误判。

Emmm 这段时间仍然在整理毕业论文的数据。这套数据,维度还是麻烦。表达量数据在做可视化时,总是觉得不够直观。为此,这三四天在外面忙事情的空闲时,我想到了一个不错的实现。
昨天发了一个推送,骗了大家一堆赞赏,合计了下,好像有300多,啊,十年后是否会捐更多?回到主题。

首先放出一张图

可以看到,这张图:

整体上,这样绘制出来的热图确实是可以体现一些信息,但是非常不直观,而且 不能很好的显示出样品之间的区别与联系

首先还是放上一张图,

在这个热图中,我们可以非常直观地观测,不同性别类型内部基因的表达变化,样本间的关系,也可能很好的对比到不同组织相同时期的表达差异。换句话是, LayoutHeatMap让你获得更好的数据解读体验

LayoutHeatMap 这个热图工具的名字是我起的,这样绘制热图的方式可能是存在的,不过这类热图的绘制工具应是不存在的。

LayoutHeatMap相比于普通的Heatmap,就是增加了Layout,用户自己定义一个样品布局即可。
比如,全部放在一行(Note: 名字相同的会被合并居中)

其实,如果你乐意,你可以做成自己的Logo

可视化是为了更好的解决数据,而不是为了炫技。只是有时候两者会被结合在一起。

怎样计算基因和mirna的相关性并绘制热图
有点复杂的。microRNA直接调节基因的表达,而生产相关疾病。microRNA检测方面现在实时定量PCR比较常规,QANGEN可以买到相应的试剂盒。临床样本处理好后,抽提RNA,再针对基因设计引物,进行PCR条件优化与上机分析,参照内参就成分析数据了。microRNA研究还有RNAi,可以通过化学合成SiRNA,或载体构建质粒转染,或病毒包装来 *** 作。建议做慢病毒RNAi。研究思路比较常规,转染效率高的话干扰效率一般不会低的,可以做相关生物学效应与功能分检测。microRNA过表达可以使用pcDNA62-miR vector构建,miRNA前体可以到miRBase查询。

A、甲图中,转录和翻译同时进行,属于原核生物的基因表达过程,而原核生物没有染色体,故A错误;B、红霉素影响核糖体在mRNA上的移动,所以影响基因的翻译过程,故B错误;C、图乙中①是DNA复制、②是转录过程、③是翻译过程、④是RNA的复制,⑤是逆转录过程,图甲是基因控制蛋白质的合成过程,即转录和翻译,为图乙中的②③过程,故C错误;D、图乙中涉及碱基A与U配对的过程为②③④⑤,①过程中只有A与T配对,故D正确.故选:D.


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10266750.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-07
下一篇 2023-05-07

发表评论

登录后才能评论

评论列表(0条)

保存