Cellranger count 中网页结果说明

Cellranger count 中网页结果说明,第1张

如果数据中存在异常,在网页的头部会给的警告框。点击 Details , 可以看到详细的信息。

一般情况下, Fraction Reads in Cells 的值应大于70%才能说明数据质量较好。

统计reads的比对比例,同时给出比对到基因间区,外显子,内含子的比例
通过barcode上的UMI标签分布来评估细胞数目,Y轴是map到每个barcode的UMI的计数数值,X轴是与计数数值对应的barcode的数量,绿色代表细胞,灰色代表背景。

如果这个曲线出现一个明显徒降的趋势,这表明与细胞相关的barcode和空白的条形码区分的很好。
其中展示了样品名称、参考基因组信息、cellranger版本信息、10X测序方法(V2或V3试剂盒)

该部分中主要含有以下几个内容:

降维分析,将细胞投射到二维空间(t-SNE)

自动聚类分析,将具有相似表达谱的细胞组合在一起

在所选cluster之间差异表达的基因列表

显示测序深度减少对观察到的文库复杂性的影响

显示测序深度减少对检测到的中值基因的影响
这里显示的是每个细胞条形码的 总UMI计数 。每个点表示一个细胞,颜色表示UMI含量。具有较大UMI计数的细胞可能具有比具有较少UMI计数的细胞更高的RNA含量,也就是 越红的细胞RNA含量越高 。坐标轴对应于由t-SNE算法产生的二维嵌入。在该空间中, 彼此接近的细胞对具有比彼此远离的细胞更相似的基因表达谱,然后聚类将具有相似表达谱的单元组合在一起。

10xGenomics官方软件Cellranger的分析没有对结果进行过滤,以及不能同其他分析无缝对接,需要再次分析。而Seurat作为使用最广泛的单细胞转录组分析软件,可以对数据进行各种质控以及下游分析。

然而其官方可视化软件Loupe Browser对于没有R语言基础的老师来说,是十分方便的分析工具。但由于Seurat结果与Cellranger结果并不统一,这对没有R基础的老师来说又十分不便。

因此,将Seurat降维聚类分群的结果导入到Loupe Browser是十分必要的,这将大大地便于老师自己对其结果进行分析以及调整。此文档就是解决这个问题,实现可视化。

Seurat分析结束以后,将其聚类结果输出。其聚类结果表示每个细胞属于哪一个亚群,通常在Seurat对象中的object@activeident矩阵中,writecsv(object@activeident,file=clusterResult,quote=F)输出。
如果老师没有R基础的话,一般测序公司都会提供相应的文件,其文件格式如下图所示:

这个文件有三列,文件是以英文符号,进行分割成csv文件。

利用Loupe Browser打开该样品的loupe文件,一般cellranger会输出此文件。

点击Projection---Import Projection,然后导入之前准备的坐标轴文件。这里我使用的文件名称为样品名称_tsne_genecsv

就会发现这个图形发生了变化,变得与Seurat的结果图形完全一致。导入后结果如下:

上图为导入后Loupe Browser结果

上图为Seurat分析的结果图

通过结果发现,其形状完全一致,因此到这里,Seurat的坐标轴结果导入完成。

下一步将导入聚类结果,聚类结果的导入与坐标轴结果类似,在分析Seurat结果对象中的矩阵中,通常在Seurat对象中的object@activeident矩阵中,writecsv(object@activeident,file=clusterResult,quote=F)输出,其文件格式如下图所示:

这个文件有两列:

然后导入此文件,这里我使用的文件名称为样品名称_cell_clustercsv,然后就会发现这个聚类发生了变化,变得与Seurat的结果聚类完全一致。导入后结果如下:

上图为导入后Loupe Browser结果

上图为Seurat分析的结果图

通过结果发现,其聚类颜色完全一致,因此到这里,Seurat的聚类结果导入完成。

注意事项

随着09年单细胞转录组技术的现世,使得科研精度从组织转变为单个细胞的层面。10XGenomics单细胞转录组技术作为其中目前来说最为大火的技术,对于细胞发育、肿瘤异质性以及细胞图谱等等方面的研究发挥着越来越重要的作用。今天我们一起看下其中可能遇到的问题吧~

Q1 什么样的原始数据可以直接用于cellranger分析呢?

A1 使用cellranger软件进行分析,使用的是:
_S1_L001_R1_001fastqgz
_S1_L001_R2_001fastqgz

分析软件只识别形如以下格式的fq文件:
“Sample Name_S1_L00[Lane Number]_[Read Type]_001fastqgz

Q2 通常样品nGene和nUMI的相关性系数要在08以上,但是这次实验的相关性在05以下,怎么解释这个情况,得到的实验下机数据还可靠吗?

A2 影响相关性的因素有文库制备过程的稳定性和细胞状态的一致性。如果相关性较低,可能是由于文库中细胞状态差异较大。

可能与细胞检测时的状态有关,有些细胞可能活性降低,核酸存在降解的状态。

Q3 检测线粒体表达量目的是为了作为阴性对照吗?正常线粒体基因在细胞中含量不是很多,那检测线粒体表达量是评价测序结果好坏的一个阴性对照吗?

A3 检测线粒体基因的表达量是一个数据分析质控指标。除了部分特殊类型的细胞(如卵细胞)。如果定位到线粒体的比例高,表明细胞质量较低,这可能是细胞凋亡增加所致。

Q4 valid barcodes只有92%,请问其他的reads是不带标记还是带错误标记呢?如果是错误标记,该错误是在哪一步引入的?

A4 都会有barcode,这个barcode不在白名单里面,可能是错配较多,或者质量较差。

Q5 能否根据已知的某一个或者某几个的marker基因,过滤出高表达这些maker基因的细胞,然后对这些细胞重新进行聚类分析呢?

A5 可以。可以直接计算出每个细胞中这些marker基因的表达比例,然后挑选高表达(需要确定高表达的阈值)这些基因的细胞做后续分析。

Q6 关注的基因表达量水平比较低,分析中采用的归一化方法对低表达量基因的影响是否很大呢?

A6 seurat分析中,默认采用LogNormalize归一化算法。该归一化对低表达的基因没有影响。

Q7 seurat分析里P_val和p_val_adj要考虑么?p_val_adj有数值为1的,应该选取什么样的数值呢?

A7seurat软件结果只对avg_logFC有个阈值控制(seurat软件默认),一般为025。

对其他值比如P_val和p_val_adj都没有设定阈值,所以会出现有p_val_adj值为1的结果。

主要原因是由于单细胞数据表达量数据较低(与bulk RNA相比较),设定太严格的阈值可能会造成有些有意义的数据被过滤掉了。

P_val和p_val_adj的值可以参考一下,差异倍数相差不大的话,可以考虑一下这两个值。

参考文献
>

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/13433669.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-05
下一篇 2023-08-05

发表评论

登录后才能评论

评论列表(0条)

保存