单细胞综述之整合分析

单细胞综述之整合分析,第1张

文章发表于nature review genetics: Integrative single- cell analysis ,作者是Tim Stuart与 Rahul Satija 。做过单细胞分析的对他们应该不陌生。

scRNA-seq技术的发展契合了研究个体细胞表观遗传、空间研究、蛋白质组与谱系信息的方法需要,这为研究多类型数据的综合方法提出了独特的机遇与挑战。综合分析可以发现细胞之间的模式关系,获取细胞的整体状态信息,产生涵盖不同样本与不同研究手段的数据集。该文重点讨论了单细胞基因表达数据与其他类型的单细胞分析方法的整合。

多模态(Multimodal)数据 :多种类型数据的组合,如RNA与蛋白质数据组合,是一种多维度数据,类似多组学。
单模态 :单个类型数据
Pseudotime :拟时分析
联合聚类(Joint-clustering) :通过联合不同类型数据对细胞进行分组。
典型相关分析(CCA) : 利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。
动态时间规整(Dynamic time warping) :一种局部拉伸或压缩两个一维矢量以校正一个矢量相对于另一个矢量的滞后的方法。
MNNs :标准化基因表达空间中最临近的细胞。聚类用校正批次效应。
梯度推进(Gradient boosting) :一种预测模型算法。

随着分子生物学、微流控与纳米技术的发展,催生了许多类型的单细胞测序技术。过去的方法集中在单模态测量上,如DNA序列、RNA表达量和 染色质可及性 上。虽然这些技术促进了我们对细胞多样性与发育景观的理解,但是它们并不能很好地解析单细胞内分子间互作关系。而这些互作关系是深入探索细胞状态的关键。此外,随着可用数据集规模的快速增长,迫切需要用于标准化与联合分析且考量到批次效应与个体差异的计算方法。
scRNA-seq是应用最为广泛的单细胞测序技术之一。而后出现了一系列互补技术如单细胞基因组、表观基因组和蛋白质组分析技术,涵盖了单细胞基因组测序( Vitak, S A et al, 2017 ; Navin, N et al, 2011 )、染色质可及性( Pott, S, 2017 ; Corces, M R et al, 2016 ; Buenrostro, J D et al, 2015 ; Cusanovich, D A et al, 2015 ; Lake, B B et al, 2018 )、DNA甲基化( Luo, C et al, 2017 ; Smallwood, S A et al, 2014 ; Guo, H et al, 2013 ; Mulqueen, R M et al, 2018 )、膜蛋白( Stoeckius, M et al, 2017 ; Peterson, V M et al, 2017 )、小RNA( Faridani, O R et al, 2016 )、组蛋白修饰( Gomez, D te al, 2013 ; Rotem, A et al, 2015 )和染色体构象( Ramani, V et al, 2017 ; Nagano, T et al, 2013 )等技术。目前已开发出研究单细胞空间结构和谱系信息的方法( Frieda, K L et al, 2017 ; Shah, S et al, 2016 )。

单细胞多模态综合分析方法示意

单模态与多模态分析方法汇总

CEL-seq :线性扩增测序法
CITE- seq :膜蛋白丰度与基因表达水平测定
G&T-seq :基因组转录组测序
LINNAEUS :谱系追踪
MARS-seq :大规模平行单细胞RNA测序
MEMOIR :谱系与空间结构测定
MERFISH :主要是细胞间结构测定
osmFISH :环状单分子荧光原位杂交,空间结构测定
REAP- seq :膜蛋白丰度与基因表达水平测定
scATAC-seq :单细胞空间结构测定
scBS-seq :单细胞甲基化测序
scChIP-seq :单细胞ChIP-seq
scGESTALT :结合CRISPR-cas9的谱系追踪弄方法
scHi-C-seq :测定染色体组装
sciATAC-seq :结合index转座酶的scATAC-seq
sci-CAR :利用index联合分析mRNA和染色质可及性谱
sci-MET :利用index分析单细胞甲基化水平
sci-RNA-seq :结合index的scRNA-seq
SCI-seq :单细胞组合标记测序,检测CNV
scM&T-seq :单细胞甲基化组和转录组测序,可研究未知的DNA甲基化与基因表达之间的关系
scNOMe- seq :核小体占位与甲基化组测序
scRRBS :单细胞限制性代表区域甲基化测序
scTHS- seq :单细胞转座体超敏性位点测序
seqFISH :内含子序贯荧光原位杂交,扩展观测到基因数量
snmC-seq :单核甲基胞嘧啶测序
SNS :单核测序
SPLiT-seq :丐版scRNA-seq
STARmap :原位单细胞测序

理想的实验流程应当全面洞悉细胞的所有方面,包括分子状态、空间构象、胞外环境互作的全部过程。尽管当下技术手段无法做到,但多模态技术与综合计算方法可以是我们离该目标越来越近。文章希望提出整合单细胞转录组学、基因组学、表观组学与蛋白组学的数据统一分析方法,重点在结合其他数据类型分析scRNA-seq数据,尤其是整合来自于同一细胞的不同类型数据。

文章分为四大块,首先探讨了多模态单细胞分析方法,其次研究了不同实验不同数据整合分析,然后讨论了单细胞空间测序数据整合分析方法,最后给出了整合分析方法的前景与必要性。

最初的单细胞分析方法主要关注细胞某状态下的某类分子水平。而现在更引人瞩目的是同时分析单细胞内多种分子以建立更全面的单细胞分子视图。通常这些方法是将scRNA-seq数据与其它分析手段的结合,目前主要有四种策略从单细胞中得到多模态数据:

严格来说这种方法算单模态。
一些scRNA-seq workflow采用流式分选细胞,随后进行scRNA-seq(MARS-seq/Smart-seq/2),这样可以同时获得单细胞与对应的荧光信号,将荧光所表示的蛋白质水平与转录组在同一细胞中关联( Ramsköld, D et al, 2012 ; Jaitin, D A et al, 2014 ; Picelli, S et al, 2013 )。早期研究( Hayashi, T et al, 2010 )利用FACS结合半定量RT-PCR(作者称之为FBSC‐PCR),结合scRNA-seq,明确了细胞表面marker可以区分细胞类型与状态( Wilson, N K et al, 2015 ;该文结合了Smart-seq2),( Paul, F et al, 2015 ;该文结合了MARS-seq)和鉴定稀有细胞的思路。 Paul, F et al, 2015 与 Nestorowa, S et al, 2016 利用该workflow研究发现了小鼠造血祖细胞由转录组定义不同细胞簇的免疫表型, Wilson, N K et al, 2015 则分离了小鼠HSCs,鉴定细胞维持干性相关的表面marker。但是囿于荧光光谱的重叠现象,利用该法测到的每个细胞的参数范围有限。

针对荧光无法分选的部分,FACS显然是不合适的,尤其是需要同时测得单细胞基因组与胞内蛋白的scRNA-seq实验。此时需要物理分离或通过不同tag筛选出不同组分。

G&T-seq通过加入oligo(dT)特异性分离mRNA同时保留基因组DNA从而实现了基因组转录组平行测序( Macaulay, I C et al, 2015 )DR-seq通过则通过加入barcode特异扩增cDNA序列实现基因组转录组平行测序( Dey, S S et al, 2015 )。这使得单细胞基因表达水平与其对应基因型联系起来,深度揭示单细胞间DNA拷贝数变异与染色体重排对下游mRNA丰度的具体关联。这些方法适用于研究体细胞基因高度变异的肿瘤组织。

DNA甲基化与转录组水平结合研究是基于 Macaulay, I C et al, 2015 的G&T-seq和 Smallwood, S A et al, 2014 的scBS- seq技术发展的,同普通BSP一样,用亚硫酸氢钠处理DNA片段随后进行扩增,结合G&T-seq,可以分析同一细胞内的DNA甲基化模式和基因表达数据( Angermueller, C et al, 2016 )。由于DNA甲基化存在不稳定性和异质性,因此若要研究DNA甲基化与基因表达间的关系,则必须将表观基因组变异与细胞间的异质性区别开来。
通过DNA甲基化与转录组关联分析,为启动子甲基化与基因表达间的负相关性提供深层次的证据。此外,利用barcode系统选择性标记基因组DNA与cDNA,结合index系统,可以对数千个单细胞进行染色质可及性与基因表达水平间的关联分析,同时鉴定出影响基因表达的顺式调控元件( Cao, J et al, 2018 )。

关于胞内蛋白与mRNA关联研究,有两种思路可供借鉴。其一( Darmanis, S et al, 2016 )是将FACS sort到的细胞裂解后分离裂解液,分别进行蛋白质与RNA定量。作者采用 PEA (邻近探针延伸分析) 检测蛋白并用RT-qPCR定量,采用qRT-PCR定量mRNA。该法可以同时检测82个mRNA/75个蛋白;其二( Genshaft, A S et al )是将FACS sort到的细胞在微流控芯片中同时进行逆转录和PEA而不分离裂解液。该法可以同时检测96个mRNA/38个蛋白。这两种方法检测的蛋白与mRNA数量与质量均有限。

这些技术的出现表明若将可以细胞信息转化为有序的barcode,我们就可以在分析单细胞转录组时将这些信息同时获取。这种策略不仅适用于分析细胞的自然状态,也适用于大规模基因扰动研究。目前有Perturb-Seq( Dixit, A et al, 2016 )和CRISPR-Seq( Adamson, B et al, 2016 ; Datlinger, P et al, 2017 ; Jaitin, D A et al, 2016 ),他们将scRNA-seq与CRISPR-cas9结合进行遗传筛选,使得研究正向遗传学的大规模基因扰动试验成为可能。具体原理是给单个基因扰动和受到影响的细胞添加barcode,通过scRNA-seq能够鉴定出这两者,从而推断CRISPR靶向基因和由此产生的单个细胞的转录谱间的关系。目前应用在基因调控网络( Dixit, A et al, 2016 )、未折叠蛋白反应( Adamson, B et al, 2016 )、免疫细胞分化发育( Datlinger, P et al, 2017 )和T细胞受体激活( Jaitin, D A et al, 2016 ),非编码区调控元件( Klann, T S et al, 2017 )。此外,还可以结合CRISPR-dcas9系统,扩展到转录调控、表观遗传调控领域中( Thakore, P I et al, 2016 ; Liu, X S et al, 2016 ; Hilton, I B et al, 2015 ; Konermann, S et al, 2015 ; Gilbert, L A et al, 2017 ),18年发展了同时靶向和敲除基因的技术( Boettcher, M et al, 2018 )。

另一个应用是结合CRISPR-cas9的谱系追踪技术。单细胞谱系追踪是去年的大热方向之一,此处提到三种mRNA+lineage方法: scGESTALT 、 ScarTrace 、 LINNAEUS 。这三种方法各有不同,但大体是利用CRISPR-cas9连续切割结合到基因组上的barcode,细胞会用NHEJ来应对这种损伤。但NHEJ容易出错,从而在DNA序列中产生随机突变,这些突变通过细胞分裂进行遗传,结合scRNAseq利用这些突变作为复合barcode来构建组织或器官发育谱系。

另一种略有不同的方法是 MEMOIR ,它结合smFISH与CRISPR-cas9系统,可以同时检测细胞谱系与空间位置。

普通的scRNA-seq流程除了可以做转录本丰度外,还可以进行诸如体细胞突变、遗传变异、RNA isoform等分析。

关于体细胞突变目前已有研究( Lodato, M A et al, 2015 ),该文通过对人大脑的少量单细胞全基因组测序,分析了发生的细胞突变,构建了人大脑神经细胞谱系。作者发现突变大多发生在高转录活性相关位置,这表明可能可以通过scRNA-seq数据来分析神经细胞突变情况,根据转录状态重构神经细胞谱系。此外,分析scRNA-seq数据中的拷贝数变异,可以研究癌症非整倍体与异质性等情况( Tirosh, I et al, 2016 ; Fan, J et al, 2018 )。
单细胞分析也为理解DNA自然变异如何影响基因表达与细胞状态提供了新思路。有研究结合GWAS+scRNAseq,鉴定出了不同个体之间的eQTL( Kang, H M et al, 2018 )。

多模态测序策略正在催生与之相匹配的数据分析方法。多模数据集可以检测到细胞间的细微差异,而单模数据很可能无法做到这一点。由于scRNAseq数据存在dropout,故而它更容易忽略细胞间的细微差别;但与来自同一细胞的其他数据互补分析可以改善这一问题。例如,很难通过scRNA-seq数据区分不同的T细胞亚群,但联合膜蛋白分析则可以显著提高亚群分辨率( Stoeckius, M et al, 2017 ),同样,RNA+chromatin、RNA+methylation联合可能揭示单个细胞间的调控异质性,不再赘述。

单细胞多模态分析思路很可能受到bulk-seq多组学联合分析的启发( Meng, C et al, 2016 ), Argelaguet 开发了一种名为MOFA( multi- omics factor analysis)的方法,该方法在多组学bulk-seq数据中效果良好,同时测试了单细胞DNA甲基化数据与RNA数据联合处理情况,效果也可以。这暗示适用于bulk-seq的多组学数据处理方式可能也适用于单细胞多模态数据。鉴于单细胞数据规模远超bulk-seq,多视图机器学习不失为一种重要的补充手段( Colomé- Tatché, M & Theis, F J, 2018 )。
单细胞多模态研究策略为解析细胞内不同组分间的关系提供了新方法。如CITE-seq和REAP-seq可以轻易鉴别出相关度较低的RNA-protein模块,表明此处存在活跃的转录后调节。还有一个很有意思的是通过测量剪接过的成熟RNA与未剪接RNA的相对丰度,可以建立RNA与蛋白的关联动态模型( La Manno, G et al, 2018 )。
此外,还可以在不同类型数据间建立统计模型。前面提到的sci-CAR文章建立了染色质可及性与基因表达水平间的统计模型,通过染色质可及性数据估计细胞内基因表达水平( Cao, J et al, 2018 ),另一组研究人员建立了gRNA与基因表达水平间的线性回归模型,用以识别细胞应答的前后关系,重构转录网络(Perturb-Seq( Dixit, A et al, 2016 ))。通过这种手段可以研究目标物种复杂的调控网络。

前面主要讲了在同一测序实验同一批细胞进行的多模态数据整合,而不同测序实验数据整合分析才是亟需解决的关键问题。同bulk seq 数据一样,处理批次效应是综合分析不同实验室、不同workflow产出数据的首要问题(SVA包( Leek, J T 2014 ))。然而目前bulk seq水平的处理方法无法处理单细胞数据(( Haghverdi, L, et al, 2018 ,作者用MNN处理数据,该法在 mnnpy 中得到改进); Butler, A, et al, 2018 )。目前最新方法利用 CCA / MNN 可以识别出两个数据集间共有的部分,判定细胞间共有的生物学状态,然后以这些相同状态的细胞为基准消除批次效应。

此处作者介绍了他自己在Seurat V2中开发的方法( Satija, R, et al, 2015 ;),该法用 CCA 鉴别出不同数据集间相同的细胞类型且可以避免出现由批次效应或常规PCA造成的假阳性细胞类型;接下来采用动态时间规整算法校正数据集间细胞密度差异。这两步骤可以将细胞投影到一个低维空间,具有相同生物学状态的细胞相互接近且消除了不同数据集带来的影响。

另一种方法即mnnCorrect,最早用于计算机领域图形识别。该法寻找不同数据集间最接近的细胞,将之判定为潜在的状态相同细胞,随后利用成对MNNs距离计算一个批次参数(batch vector),用以校正原始表达矩阵( Haghverdi, L, 2018 )。

CCA/mnnCorrect在整合处理不同来源的scRNA-seq数据时表现良好。这将极大提升发现稀有细胞、微弱转录差异细胞及与之对应maker的能力( Haghverdi, L, et al,2018 ; Butler, A,et al, 2018 ) 。这为建立一个统一的单细胞参考数据集提供了依据。在此基础上,scRNA-seq数据整合分析得到了快速发展( Hie, B L, et al, 2018 ; Barkas, N et al, 2018 ; Park, J-E, 2018 ; Korsunsky, I et al, 2018 ; Stuart, T et al, 2018 ; Welch, J et al, 2018 )。这种多数据集整合分析的应用远不止用于校正批次效应这么单一。它可以在单细胞尺度上深入比较细胞间的状态,发现细胞对环境及基因扰动的特异性响应,对不同疾病及不同治疗下的患者的测序数据进行标准化。
scRNA-seq数据整合分析还可以扩展至跨物种分析。 Karaiskos,N 比较了两种果蝇早期胚胎的空间基因表达模式,通过构建空间基因表达图谱,该研究系统比较了两个果蝇的同源基因表达谱,鉴定出了彼此间的进化波动。 Tosches 比较了爬行动物与哺乳动物脑细胞间的相关性。 Baron 分析了人与小鼠胰岛细胞scRNA-seq数据,鉴定出了二者间的保守亚群。 Alpert 开发出了cellAlign,在一维水平上比对了人与小鼠的拟时轨迹,发现人胚胎合子激活要比小鼠晚,小鼠中比人活跃的基因皆与蛋白合成相关。跨物种分析未来是光明的,但对于多物种整合分析而言,精确鉴定物种间同源基因是多物种整合分析至关重要的一步。

以细胞分类信息的形式串联不同的scRNA-seq数据集,或者借鉴到自己实验中,是优于合并数据集然后de novo聚类这种方法的。且随着 有参细胞图谱 的开发,这种方式将更加寻常。目前已开发对应方法: scmap- cell & scmap- cluster ,其中scmap-cell 用乘积量化( product quantization )算法进行比对,而scmap-cluster则用于识别未知数据集中的cluster。

利用已有的注释数据集,目前开发的新方法采用 奇异值分解 、 线性判别分析 和 支持向量机 算法来对细胞进行分类。此外,随着引用数据集的大小、范围与深度越来越高,监督聚类在解析细胞类型方面要比无监督聚类强得多。通过以上这些方法,可以更精确地识别并解析细胞亚群。

satija已有相关文章研究: Comprehensive Integration of Single-Cell Data
这一部分讲的是将scRNA-seq数据与其它不同来源和类型数据诸如甲基化、染色质结构等整合分析的方法。
将scRNA-seq数据与其它类型、不同来源的单细胞数据整合分析是无法提取到数据间的共同特征的,因为它们不是一个类型的数据,需要不同的分析方法。这点在基于基因组的数据(如染色质可及性与甲基化数据)与基于基因的数据(如基因与蛋白表达数据)间整合分析尤为明显。但如果这些数据来自于同一类细胞群,由于存在着共同的生物学状态,此时可以联立分析以发现不同数据集类型间的对应关系。

MATCHER 是一种在一维水平上比较不同类型测序数据拟时轨迹的方法。简单来说就是比对不同类型测序数据的拟时轨迹,以确定这些数据集间的对应关系。这种方法可以识别不同数据集间的“等效细胞”而不需预先知道彼此间的对应关系。开发者用scM&T- seq( Angermueller, C et al, 2016 )和scRNA-seq数据做了验证,准确预测了DNA甲基化与基因表达之间的关系。
其他sc-seq数据不同于scRNA-seq数据一样可以借助Marker解析细胞类型,因此可以利用scRNA-seq解析出的细胞信息为其他sc-seq数据分析做参考。有研究( Lake, B B et al, 2018 )对不同脑组织切片进行了单核RNAseq(snRNA-seq)与单细胞转座子超敏性位点测序(scTHS-seq),通过梯度推进算法利用单细胞基因表达谱指导了染色质可及性测序数据集的细胞分类:作者首先鉴别出snRNA-seq数据集与scTHS-seq数据集共有的细胞亚群,训练一个可以将基因表达与染色质可及性数据关联的模型;然后利用该模型去分类scTHS-seq中剩余未被分类的细胞。这种方法可以更细致地对大脑组织中的细胞进行分类。同样,可以整合scATAC-seq数据集来分析单细胞DNA甲基化或转座酶染色质可及性间的细胞分类。
目前正在开发的新方法有利用假定等价特征、或识别在所有类型数据中的假定相关共享特征来进行数据交叉模态分类。 Welch 开发了一种集成非负矩阵分解(iNMF)的方法,名为LIGER,可以跨模态整合数据。他们对同一类型 皮质细胞 分别进行了亚硫酸盐测序(snmC- seq)与scRNA-seq并对其进行了分类。他们假设基因体甲基化与其表达水平负相关从而整合了不同模态测序数据进行细胞分类。在seurat v30中,作者也引入了假定等价特征或关联特征进行多模态整合数据细胞分类的方法。这些方法优点如上所述,即可以利用scRNA-seq的细胞分类信息来指导scATAC-seq数据细胞分类,鉴别出染色质可及性与DNA甲基化的细胞特异模块。

组织中细胞的空间结构常反映出细胞间的功能差异与细胞命运和谱系的差异。不同基因表达引导细胞向不同方向分化,不同细胞精确排列形成不同组织。关键是单细胞实验通常在分析前细胞已被解离,组织原位信息无法保留,scRNA-seq得到的表达谱不能完全反应细胞空间信息。具有相似基因表达谱的细胞可能存在于不同的空间位置中,故而细胞分离过程中空间信息的缺失是很多单细胞实验的主要缺点。结合高分辨率基因表达谱与空间表达图谱 (spatial expression maps) 将细胞空间坐标与基因表达谱联系起来,可以解决这一问题。有两类方法:计算模型或者RNA原位定量,可以同时收集到细胞空间坐标与基因表达值。

太行山南段的植被提供了当地人生存和发展的必要资源,是中华文明的发祥地之一,自古至今开发历史悠久,长期采伐使太行山森林覆盖率降到1950s的不足5%,与中段和北段相比,太行山南段尤其是低山丘陵区的植被受到人类的破坏更加严重。本研究以长期自然恢复后的豫西北太行山次生林群落为研究对象,调查了 104个不同地形、土壤特征条件下20×20 m样方,采集到树种组成和13个环境变量数据。基于R和ArcGIS平台,使用空间分析、Pearson相关分析、PCA等方法分析了研究区整体地形特征和次生林生境特征;采用Ward's最小聚类和基于Hellinger转化的tb-PCA方法,分析了次生林的树种组成特征和潜在环境梯度;采用DCA、CCA定量分析了树种组成与环境因子间的关系,进一步基于前向选择和VIF评价建立了 PCCA模型,结合TWINSPAN分类结果,使用蒙特卡洛置换方法检验了 PCCA结果的显著性,分析了影响次生林群落的主要生态梯度,探讨了主要树种的适宜生境,明确了影响树种分布的关键环境变量,提出了太行山南麓生境特征的近自然群落构建模式,为南麓植被重建与保护、促进当地生态系统正向演替提供了科学依据。主要结论如下:(1)次生林样方的土壤容重、土壤孔隙度和pH值的变异程度较低(CV值<15%),而土壤碎石含量和有机C含量的变异程度最高(CV值>60%);部分环境变量之间存在较强的相关关系;环境数据的PCA分析结果显示前两个轴对总方差的解释量是5523%;各变量对生境异质的贡献从大到小依次为海拔、土壤电导率、土壤pH值、土壤全N含量、坡位、土壤容重、土壤孔隙度和土壤有机C含量,其中8个环境变量对生境异质性贡献率大于全部13个变量的平均贡献率。13环境变量按相关关系可分为3组:第1组变量土壤有机C、孔隙度、含水量和全N含量4个变量之间表现出了很强的正向关系,表征了土壤的水分和养分梯度;第2组是土壤pH、坡位、电导率和坡度,与坡向、土壤碎石体积百分比呈负向关系,代表了一部分地形和土壤信息;第3组是特征向量最长变量是海拔,与土壤厚度相关关系较强,海拔越高、土层越深,同时土壤含水量、养分含量有所增加。(2)42个树种对于群落组成的影响程度有很大差异,其中5个树种对群落类型影响超过平均值,从大到小依次为野皂荚、栓皮栎、黄栌、橿子栎、栾树,其分布影响着样方的树种组成差异。对群落影响较大的树种可归为3组:第1组栾树和栓皮栎;第二组是黄栌、橿子栎,以两个树种为优势种的群落中其他树种的丰富度和重要值均偏低,表现为群落乔木层中黄栌或橿子栎占据绝对优势;第3组是小叶白蜡、野皂荚。(3)结合PCA排序结果与Ward's最小聚类结果分析群落的潜在环境梯度,,当聚类簇值设为4时,可以清晰判读104个样方类型沿两个潜在环境梯度的分布差异。组1与组2沿海拔梯度(PC2)从低到高分布,组1分布在低海拔、薄土层的区域,生境特征为土壤碎石含量多,孔隙度小水分含量少,有机C、全N等营养物质匮乏;组2分布在中、高海拔且土层较厚的区域,生境特征碎石含量少、水分含量多、土质疏松、营养物质丰富;组3与组4沿土壤养分梯度(PC1)分布,组3分布在土壤容重大,空隙、水分、有机C和全N含量较少的区域,生境特征表现为坡度大、土壤呈碱性,可溶性盐类物质较多,样方多位于中下坡位;组4分布在空隙、水分、有机C和全N含量较多的区域,环境特征表现为坡度小、土壤呈酸性,土壤含可溶性盐类物质少。(4)TWINSPAN将104个样方划分为4种群落类型,分别是野皂荚Gleditsia microphylla-檟子栎 Quercus baronii林,栓皮栎Quercus variabilis-栾树Koelreuteria paiculata林、元宝槭 Acer mono 林和黄栌 Cotinus coggygra-橿子栎 Quercus baronii林。根据各类型所含样方的调查情况,描述了4种类型的树种组成、群落结构及其生境特征。(5)根据DCA分析结果,最大轴长=76529>4,研究区树种数据的响应模型为单峰曲线,直接梯度分析可以采用CCA方法。CCA分析结果显示,13个环境变量联合解释了群落变异总方差的5695%,说明次生林树种组成与地形特征和土壤属性关系密切。经过前向选择筛选出显著的解释变量6个,从大到小依次为海拔、土壤全N、土壤含水量、土壤pH值、坡度和土壤碎石含量,消除了环境变量的共线性,提高了模型显著性。其中海拔对群落分布的影响最大,其次是由土壤全N含量代表的养分梯度,和土壤水分差异。在太行山南麓环境变量的影响效果与北段相似,与中段差异较大。海拔、养分和水分梯度的空间差异是影响研究区天然次生森林树种组成和群落分布的主要环境因子。海拔通过限制人为干扰,形成了二级驱动,间接地影响了树种和群落的分布。(4)结合PCCA与TWINSPPAN结果分析,4种次生林群落类型分为2对,分别沿两个生态梯度分布。第1个梯度代表了海拔和土壤养分梯度的变化,位于梯度两端的类型1和类型4对土壤养分和海拔差异有明显的偏好。类型4多分布在海拔较高、土壤肥沃的中山区,其优势种是元宝槭;类型1的优势种是野皂荚和橿子栎,多分布在低海拔、土壤贫瘠的低山区和丘陵区生长繁殖。在当地植被恢复工程中,这两个树种是很好的建群种。第2个生态梯度与土壤pH值、含水量和碎石含量密切相关,代表了土壤酸碱性和水分梯度。位于第2个生态梯度两端的是类型2和类型3,其中类型2的优势种是栓皮栎和栾树,生长在坡度较大、排水良好的坡地,能忍受pH值更高的碱性土壤和较干旱的环境;黄栌和橿子栎是类型3的优势种,适宜在水分条件好、碎石含量少的酸性土壤中生长。(5)根据树种生境选择偏好与群落生态梯度研究结果,结合研究区天然次生林群落及其生境特征,提出了适宜太行山南段低山丘陵区生境特征的近自然群落恢复模式。

第1步,DGGE图谱数据的整理
简单明了些,将Quantityone或者类似软件分辨匹配后得出的DGGE条带的相对百分亮度数据整理到excel表格中。格式如下图,即纵向从上往下为样品编号,条带编号则在第一行从左往右,表格中填入对应条带的相对百分亮度值。比如,条带3在泳道1中的亮度为0591841此表是本人某论文的原始数据的一部分。
第2步,DGGE图谱数据的导入。
使用Canoco软件进行相关分析。Canoco在不少论坛,比如普兰塔等,都有破解版下载。大家运行的时候只要调整下电脑系统时间到2002年以前即可(最新破解版似乎不需要这么麻烦了)。Canoco不能直接识别excel格式的数据。必须将DGGE图谱的条带数据转化为能识别的dta后缀的文件才可以进行后续的PCA等相关分析。具体 *** 作如下:在excel表格中,将条带数据连同样品编号和条带编号一起鼠标选择,Ctrl + C 拷贝。然后“开始”-“程序”下找到Canoco的子程序WcanoImp,这个子程序是专门导入数据的。程序会d出如下对话框:
如果你的条带矩阵数据有很多0值,可以将最后的“Save in Condensed Format”勾上,至于为什么,没有太深究。不过不勾上,似乎不影响分析结果。
点击“Save”,d出如下对话框:
这个时候,要自己选择条带数据矩阵的保存路径,并给该文件命名。如,我将此文件保存到“PCA教程”文件夹下,命名为spedta,注意这个“spedta”是我自己打出来的。点击“保存”,d出如下对话框:
点击“OK”,系统会提示你成功生成文件。这个文件就是我们后续PCA分析所需要的Canoco软件可识别的条带组成数据。这个spedta文件就保存在PCA教程”文件夹下。当然,我们还可以对理化因子数据进行同样的 *** 作。如果对物种生存环境对生物的影响方面的研究感兴趣,可以进行RDA,CCA等分析,这个就需要物种和环境两个数据矩阵了。
第3步,Canoco软件进行PCA数据分析。
接下来我们就可以使用Canoco软件对我们的spedta文件记性PCA分析了。
在“开始”-“程序”下找到Canoco for Windows 45 (当然你我版本可能不同)。
Close Canoco软件d出的小广告。就进入Canoco的分析界面:
点击最左边的符号“”,d出如下对话框:
我们只有条带(即物种species)数据,所以只能选择最上面的“Only species dataavailable”。如果你有物种数据、物种所在环境的理化参数数据或者其他辅助数据,可以选择对应的选项。不同的选项,后续的 *** 作略有不同,可以进行不同的分析。比如,“Species and environmental data available”,我们可以进行计算不同环境因子对物种组成影响的RDA,CCA等分析。感兴趣,可以查阅下文献。
选择“下一步”:
“Browse”,浏览选择上步生成的“spedta”数据。如下:
然后在“Canoco solution file name”一栏中,将“spedta”数据的保存路径复制过来。举例,我这次就将下图的蓝色选择部分复制,然后拷贝到“Canoco solution file name”下面,自己再后面键盘敲进去将来要生成的solution文件的名称,比如PCAsol,注意后缀一定是sol。
这一步比较重要。
选择“下一步”:
选择“Linear”线性的分析模式下的PCA,“下一步”:
默认,下一步:
如果你的不同条带数据差异巨大,比如,最大的100,最小的01,你可以选择开平方处理下。默认,下一步:
默认,下一步:
默认,下一步:
选择“完成”,OK,Canoco软件分析完成了。d出如下对话框:
在“文件名”一栏中,敲进去“PCAcon”。如下图。当然,名字你随便起,后缀最好是con。
下面就要看分析结果和绘图了。

第4步,Canoco PCA数据分析结果及绘图。

上一步在选择“保存”后,d出如下对话框:
选择“Analyze”对数据进行分析
我们可以看到PCA的大体分析结果,如下图,我们可以看到第一轴解释了313%的物种组成变化,第二轴解释了469-313=156%的物种组成。
这个时候该绘图了!选择“CanoDraw”按钮,d出如下对话框,命名PCAcdw
然后“保存”。然后就可以输出图了,先关掉如下的Canoco小广告。
我们可以看到这样的 *** 作界面:
在“Create”菜单下选择“Scatter plots”—“samples”或者“species”,就可以得到样点或者物种组成的PCA图了。如下图:
这个图是最原始的图,我们可以进行相关的编辑。比如,鼠标右键,可以调整PCA图的轴大小。我觉得第一轴,即水平轴的右边范围太大了,可以适当缩小,由25更改为22
得出新图,如下:
我们可以用鼠标拖动上面的数字,因为有重叠之类的问题,不太好看。拖动后,如下图,这样好看一点哦。
另外,鼠标右键有几项命令,比如zoom,可以放大图谱,使我们看的更清晰些。我们还可以对样点的显示符号、文字及大小进行编辑。比如,本PCA图,样品1-12,,1-24, 25-36分别为3个处理。我想用不同的符号来直观的区别他们,可以, *** 作是这样的:按着Ctrl键,依次选择13-24号对应的圈圈符号,然后按F5,就可以打开“Properties”对话框,可以对颜色、线条、填充及符号类型及大小进行编辑。当然,只要你选择了任何对象,都可以F5,对其特性进行编辑。
修改后的13-24号样点的符号类型就更改为如下图:
同样的方法可以对其他的样点进行编辑,如下图所示。
如果满意,我们就可以输出了。“File”菜单下“Export”,大家根据需要选择输出的格式及分辨率DPI。这样就OK了。

CCA(冷峰放电电流)是衡量车用电瓶性能的指标,可以用内阻仪换算获得。具体的转换公式如下:
CCA = (I1 - I2) K
其中,I1 表示电瓶初始电流,I2 表示电瓶电流降至 72V 时的电流,K 表示内阻仪换算系数。
在使用内阻仪进行计算时,不同的内阻仪系数可能略有不同,根据《车用蓄电池寿命评估技术规范》规定,常见的内阻仪换算系数如下:
- 052:适用于 12 升以下的汽车;
- 050:适用于 12 升至 18 升的汽车;
- 048:适用于 18 升以上的汽车。
根据以上转换公式和换算系数,可以将内阻仪测试结果转换为 CCA,然后用 CCA 值来评估车辆电瓶的性能和状态,以便及时更换或维护。

以一份真实的知网检测报告为例,

在知网检测报告里,首先可以看到中国知网的logo和文字

有报告的唯一编码,可用于验证报告的真伪,有检测时间和检测范围。

对于查重者最关键的信息是总文字复制比,去除本人已发表文献复制比,学校认定文章是否合格就是看着两个指标的。

在提前查重中,重复字数,总字数等指标可以帮助进行论文修改,因为检测报告里都是有全文标明引文这个报告单,这个报告单把论文的每一处重复文字都详细的标识出来,这需要对照重复文字进行修改,就可以有效降低重复率的。更详细说明请参阅

在microbiome analysis中,有着大量的A,诸如PCA,PCoA,RDA,CCA,ICA之类的,网上介绍每一种的文章都十分的多,但是将它们放在一起比较并且讲得比较明白的文章却比较少,而且其中哪一些区别有一些比较显著性的差异,甚至有一些在了解的人看来比较愚蠢的回答,例如MDS的解释成分是多少之类的?

那么在这里着重和大家一起来介绍一下。先是各个的介绍,然后才是进行比较,以及提及一些重点,在每个的介绍中也会提到这些差异点。

大部分的A都围绕着一个点,也就是 降维

PCA大概是其中最为常见的一种,由于其较为简单的原理以及与降维前的数据关联性比较好,所以应用的范围也是十分的广泛,但是由于其过于简单的假设,也导致了在许多实际应用中的 降维效果 受到了限制。

从大的原则上我们已经把PCA讲完,细节上的数学实现,我们这里不加赘述,可以查看一下参考中的文章 PCA的数学原理 ,大体上都是线性代数里的各种矩阵的运算。

最好能够理解数学中的原理,才能够与其他的A进行比较。以下挑出一些比较重要的特点的本质描述(与数学较为密切)。

PCoA也是一个十分有趣的东西,由于其名字与PCA的类似性,导致也有很多人混淆。而且它还有一个别名即, CMDS(Classical multidimensional scaling) ,注意,不是MDS(MDS分两种,Metric和Non-Metric,PCoA算是Metric里面的一个子类)。这里简单的介绍一下,希望不再混淆。

在CMDS中,大多数时候使用欧几里得距离,并且由于欧几里得距离进行推导出下列过程。

大致上和PCoA的一个原则是一样的,但是由于是应用于非欧式距离矩阵的,所以不满足Classical MDS中的假设,所以只能通过解决一个 最优化问题 去求解。

即通过求解一个叫Strees的偏离度来求解投影后的点的坐标。

一般来说,Metric MDS会要求使用者输入降维后所需要的维度,例如 sklearn 中的MDS。
为了最优化这个Stress要比较多而且繁复的高数内容,这里不加讲解。有兴趣的可以看
MDS的数值优化方法

也叫RA(reciprocal averaging)由于CA、PCA、PCoA都属于利用eigenvalues的ordination方法,所以也就放在一起讲,像MDS的另外一种NMDS,也就放在后面再来加以描述。
CA是一种类似于PCA的方法,但是其更多的用于 类型变量的数据 而不是连续变量的数据,本质上是为了从整体上探索两组变量之间的关系。即在两组变量中,寻找若干个具有代表性的变量的线性组合,用这些线性组合的相关关系来表示两组变量间的相关关系。
直白的说,就是将 行的编号以及列的编号 在一个二维坐标轴中做出相应的点,可以看到行编号以及列编号对应的距离关系来看行之间,列之间,行与列之间的关系,距离越近,关系越密切,同时根据特征值,来判断某个点对整个数据的贡献情况。

基本步骤:

其中各样本的排序值即在投影上的坐标,各特征也有一个排序值,所以在投影上也有坐标。

缺点:
就是CA/RA的第二排序轴在许多情况下是第一轴的二次变形,即所谓的“弓形效应”(Arch effect)或者“马蹄形效应”(horse—shoe effect)

由于是为了去除CA第二轴产生的弓形效应的影响,所以其大体和CA是一致的。

仅仅在求第二轴的坐标值时,采用一个将第一轴分成一系列区间,在每个区间内将平均数定为零,从而消除了弓形效应。
弓形效应如下图的X的点的形状。

即在求第二轴时,不需要进行正交化,取而代之的是除趋势。即将第一轴分成数个区间,在每一区间内对 第二轴的排序值分别进行中心化 。用经过除趋势处理的样本的排序值,再进行加权平均求新的特征排序值。后跟第一轴的求法一样,不断的 迭代

Canonical也是一个十分常见的修饰词,也存在CPCA,CCA。其中CPCA即PCA与多元回归的一个结合,即在PCA分析中的每一步都与环境变量进行多元回归,再将回归得到的系数结合到下一步的计算中。( 这句话也是十分奇怪。。。但是由于CPCA的内容十分少,无法考证。
而CCA则是把CA/RA和多元回归结合起来,每一步计算结果都与环境因子进行回归。即在 每次得到样本的排序值时 ,将其余样本对应的解释变量的表格进行多元线性回归。

基本步骤为:

得到的图大概就是类似于CA的结果。

类似于envfit(vegan)

RDA在现在的生信分析中也不是十分的多见。也许是由于其可以算的上是一种特别的PCA(constrained Version),所以其原理上也十分的类似。这里也简单的介绍一下。

RDA主要做的事情是在响应变量中提取出一些能 被解释变量解释 的变量,(can be explained == linear relationships with)

RDA之所以被认为是constrained version of PCA,是因为投影的坐标轴,一方面是由响应变量线性组合而成,但又必须是解释变量的线性组合(通过多重线性回归来拟合)。

RDA的基本步骤

由于RDA的原理讲解也是比较少,那么直接从结果解读来揭示更多的信息。

以上的图就是一个典型的RDA的结果,其中红色的箭头是解释变量(例如说PH、BMI之类的)的一个特征,其长度表示该特征与样本分布间相关程度的大小,连线越长,相关性越大,反之越小。箭头连线和排序轴的夹角以及箭头连线之间的夹角表示相关性,锐角表示成正相关关系。蓝色的点为原始数据降维后的投影(这个投影与PCA的结果是相近的)。

RDA 或者CCA是基于对应分析发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与 环境因子 进行回归,又称多元直接梯度分析(Multivariate direct gradient analysis )。此分析是主要用来反映菌群与环境因子之间关系。RDA是基于线性模型,CCA 是基于单峰模型。
RDA 或CCA 模型的选择原则:先用species-sample 数据(97%相似性的样品OTU 表)做DCA 分析,看分析结果中 Lengths of gradient 的第一轴的大小 ,如果大于40,就应该选CCA,如果30-40 之间,选RDA 和CCA均可,如果小于30,RDA 的结果要好于CCA。参考自: 非文献,慎用。

对于metric MDS而言,一般是使cost function最小化,也就是叫Stress的(residual sum of squares)。简单地说就是距离矩阵的距离减去投影后的欧式距离的平方和的开平方。但是对于很多的距离矩阵来说,你使用一个欧氏距离的公式(即使是 应用在投影后的距离 上),是十分难以衡量原来距离矩阵的差异的。

而非度量的MDS就是使用了一个不一样的Stress,先对 距离矩阵进行一个变换 (这个变换多种多样),然后再与投影后的欧氏距离进行差值的平方和再开平方。这个变换仅仅保持距离矩阵中的大小关系,而忽略其数值大小的差异,即为单调函数。所以在不同的尺度上会有不同的大小。

基本的步骤为

属于RDA的拓展,也就是当响应变量属于距离矩阵的时候,那么就应该先用PCoA的来进行一次投影,从而得到一个新的坐标数据。后面的过程即将这个坐标数据当做RDA中接受的响应变量,进行一次RDA的分析,得到一个新的坐标轴以及箭头之类的。

其实讲到上面那里应该就已经把大部分的A都讲完了,当然还有一些拓展的例如dbRDA、ICA、DCA这些其实都还算是上面的一部分,但如果硬要这么说的话,其实上述的A们都应该用一个共同的名字去描述,即Ordination analysis,中文大概叫排序分析(我个人是不喜欢这个名字的)。所以一般用Ordination称呼就好。

而且还有一些A是不属于Ordination,例如LDA,属于机器学习的范畴。剩下的那些也就不加赘述。

大致就这样的。

至于上面各种A之间的比较用图进行阐释。

其中MDS与环境因子的关联同样的可以用多元线性回归进行解决(虽然也是感觉十分的奇怪,仅仅为了通过投影后的坐标关联出的环境因子的结果。)R包:Vegan:envfit。

PCA的数学原理
Multidimensional scaling
>所谓冷起动电流CCA值(Cold Cranking Ampere)指的是:在规定的某一低温状态下(通常规定在0℉或–178℃)蓄电池在电压降至极限馈电电压前,连续30秒释放出的电流量。例如:有一个12伏特的蓄电池外壳标明CCA值为600,其意义为在0°F时,在电压降到72伏特前,连续30秒可提供600安培(Ampere)的电流量
引进这个概念为的是重点考核蓄电池的放电能力,从而保证给起动机的使用提供可靠和真实的能源。我们可以通过许多国外起动机的实验报告和图纸上看到“110Ah/450A”的标记,其含义是指:该起动机能够在–178℃环境下使用具有冷起动电流CCA为450A的110Ah蓄电池满足发动机冷起动试验。如果我们只是注意到蓄电池的容量110Ah而忽视冷启动电流能力的话,按照同样的规范进行发动机冷起动试验,我们的试验就很有可能失败,其结果就是有可能要求起动机厂家更换更高一级功率级别的起动机产品,或增大蓄电池的容量来解决冷起动问题。这是因为中国蓄电池的制造水平与国际水平的差异造成的,中国110Ah蓄电池的冷启动电流才为370A~400A,国外具有450A冷启动电流的110Ah蓄电池相当于我们的150~160Ah蓄电池。
CCA数值越大,启动性能越好,同时点火性能增强,车子开起来更有力量,所以CCA值就是电池的真正的容量,CCA值越大,价格自然就越高了。
希望帮到你。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10337939.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-07
下一篇 2023-05-07

发表评论

登录后才能评论

评论列表(0条)

保存