Cellranger count 中网页结果说明_服务器

如果数据中存在异常，在网页的头部会给的警告框。点击 Details , 可以看到详细的信息。

一般情况下， Fraction Reads in Cells 的值应大于70%才能说明数据质量较好。

统计reads的比对比例，同时给出比对到基因间区，外显子，内含子的比例
通过barcode上的UMI标签分布来评估细胞数目，Y轴是map到每个barcode的UMI的计数数值，X轴是与计数数值对应的barcode的数量，绿色代表细胞，灰色代表背景。

如果这个曲线出现一个明显徒降的趋势，这表明与细胞相关的barcode和空白的条形码区分的很好。
其中展示了样品名称、参考基因组信息、cellranger版本信息、10X测序方法（V2或V3试剂盒）

该部分中主要含有以下几个内容：

降维分析，将细胞投射到二维空间（t-SNE）

自动聚类分析，将具有相似表达谱的细胞组合在一起

在所选cluster之间差异表达的基因列表

显示测序深度减少对观察到的文库复杂性的影响

显示测序深度减少对检测到的中值基因的影响
这里显示的是每个细胞条形码的总UMI计数。每个点表示一个细胞，颜色表示UMI含量。具有较大UMI计数的细胞可能具有比具有较少UMI计数的细胞更高的RNA含量，也就是越红的细胞RNA含量越高。坐标轴对应于由t-SNE算法产生的二维嵌入。在该空间中，彼此接近的细胞对具有比彼此远离的细胞更相似的基因表达谱，然后聚类将具有相似表达谱的单元组合在一起。

10xGenomics官方软件Cellranger的分析没有对结果进行过滤，以及不能同其他分析无缝对接，需要再次分析。而Seurat作为使用最广泛的单细胞转录组分析软件，可以对数据进行各种质控以及下游分析。

然而其官方可视化软件Loupe Browser对于没有R语言基础的老师来说，是十分方便的分析工具。但由于Seurat结果与Cellranger结果并不统一，这对没有R基础的老师来说又十分不便。

因此，将Seurat降维聚类分群的结果导入到Loupe Browser是十分必要的，这将大大地便于老师自己对其结果进行分析以及调整。此文档就是解决这个问题，实现可视化。

Seurat分析结束以后，将其聚类结果输出。其聚类结果表示每个细胞属于哪一个亚群，通常在Seurat对象中的object@activeident矩阵中，writecsv(object@activeident,file=clusterResult,quote=F)输出。
如果老师没有R基础的话，一般测序公司都会提供相应的文件，其文件格式如下图所示：

这个文件有三列，文件是以英文符号,进行分割成csv文件。

利用Loupe Browser打开该样品的loupe文件，一般cellranger会输出此文件。

点击Projection---Import Projection,然后导入之前准备的坐标轴文件。这里我使用的文件名称为样品名称_tsne_genecsv

就会发现这个图形发生了变化，变得与Seurat的结果图形完全一致。导入后结果如下：

上图为导入后Loupe Browser结果

上图为Seurat分析的结果图

通过结果发现，其形状完全一致，因此到这里，Seurat的坐标轴结果导入完成。

下一步将导入聚类结果，聚类结果的导入与坐标轴结果类似，在分析Seurat结果对象中的矩阵中，通常在Seurat对象中的object@activeident矩阵中，writecsv(object@activeident,file=clusterResult,quote=F)输出，其文件格式如下图所示：

这个文件有两列：

然后导入此文件，这里我使用的文件名称为样品名称_cell_clustercsv，然后就会发现这个聚类发生了变化，变得与Seurat的结果聚类完全一致。导入后结果如下：

上图为导入后Loupe Browser结果

上图为Seurat分析的结果图

通过结果发现，其聚类颜色完全一致，因此到这里，Seurat的聚类结果导入完成。

注意事项

随着09年单细胞转录组技术的现世，使得科研精度从组织转变为单个细胞的层面。10XGenomics单细胞转录组技术作为其中目前来说最为大火的技术，对于细胞发育、肿瘤异质性以及细胞图谱等等方面的研究发挥着越来越重要的作用。今天我们一起看下其中可能遇到的问题吧～

Q1 什么样的原始数据可以直接用于cellranger分析呢？

A1 使用cellranger软件进行分析，使用的是：
_S1_L001_R1_001fastqgz
_S1_L001_R2_001fastqgz

分析软件只识别形如以下格式的fq文件：
“Sample Name_S1_L00[Lane Number]_[Read Type]_001fastqgz

Q2 通常样品nGene和nUMI的相关性系数要在08以上，但是这次实验的相关性在05以下，怎么解释这个情况，得到的实验下机数据还可靠吗？

A2 影响相关性的因素有文库制备过程的稳定性和细胞状态的一致性。如果相关性较低，可能是由于文库中细胞状态差异较大。

可能与细胞检测时的状态有关，有些细胞可能活性降低，核酸存在降解的状态。

Q3 检测线粒体表达量目的是为了作为阴性对照吗？正常线粒体基因在细胞中含量不是很多，那检测线粒体表达量是评价测序结果好坏的一个阴性对照吗？

A3 检测线粒体基因的表达量是一个数据分析质控指标。除了部分特殊类型的细胞（如卵细胞）。如果定位到线粒体的比例高，表明细胞质量较低，这可能是细胞凋亡增加所致。

Q4 valid barcodes只有92%，请问其他的reads是不带标记还是带错误标记呢？如果是错误标记，该错误是在哪一步引入的？

A4 都会有barcode，这个barcode不在白名单里面，可能是错配较多，或者质量较差。

Q5 能否根据已知的某一个或者某几个的marker基因，过滤出高表达这些maker基因的细胞，然后对这些细胞重新进行聚类分析呢？

A5 可以。可以直接计算出每个细胞中这些marker基因的表达比例，然后挑选高表达（需要确定高表达的阈值）这些基因的细胞做后续分析。

Q6 关注的基因表达量水平比较低，分析中采用的归一化方法对低表达量基因的影响是否很大呢？

A6 seurat分析中，默认采用LogNormalize归一化算法。该归一化对低表达的基因没有影响。

Q7 seurat分析里P_val和p_val_adj要考虑么？p_val_adj有数值为1的，应该选取什么样的数值呢？

A7seurat软件结果只对avg_logFC有个阈值控制（seurat软件默认），一般为025。

对其他值比如P_val和p_val_adj都没有设定阈值，所以会出现有p_val_adj值为1的结果。

主要原因是由于单细胞数据表达量数据较低（与bulk RNA相比较），设定太严格的阈值可能会造成有些有意义的数据被过滤掉了。

P_val和p_val_adj的值可以参考一下，差异倍数相差不大的话，可以考虑一下这两个值。

参考文献
>

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/13433669.html

Cellranger count 中网页结果说明

发表评论

评论列表（0条）