我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)

我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码),第1张

LDA可以分为以下5个步骤:

关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型 隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA) ,本文讲后者。

按照wiki上的介绍,LDA由Blei, David M、Ng, Andrew Y、Jordan于2003年提出,是一种主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

人类是怎么生成文档的呢?首先先列出几个主题,然后以一定的概率选择主题,以一定的概率选择这个主题包含的词汇,最终组合成一篇文章。如下图所示(其中不同颜色的词语分别对应上图中不同主题下的词)。

那么LDA就是跟这个反过来: 根据给定的一篇文档,反推其主题分布。

在LDA模型中,一篇文档生成的方式如下:

其中,类似Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。此外,LDA的图模型结构如下图所示(类似贝叶斯网络结构):

先解释一下以上出现的概念。

至此,我们可以看到二项分布和多项分布很相似,Beta分布和Dirichlet 分布很相似。

如果想要深究其原理可以参考: 通俗理解LDA主题模型 ,也可以先往下走,最后在回过头来看详细的公式,就更能明白了。

总之, 可以得到以下几点信息。

在讲LDA模型之前,再循序渐进理解基础模型:Unigram model、mixture of unigrams model,以及跟LDA最为接近的pLSA模型。为了方便描述,首先定义一些变量:

反过来,既然文档已经产生,那么如何根据已经产生好的文档反推其主题呢?这个利用看到的文档推断其隐藏的主题(分布)的过程(其实也就是产生文档的逆过程),便是 主题建模的目的:自动地发现文档集中的主题(分布)。

文档d和词w是我们得到的样本,可观测得到,所以对于任意一篇文档,其 是已知的。从而可以根据大量已知的文档-词项信息 ,训练出文档-主题 和主题-词项 ,如下公式所示:

故得到文档中每个词的生成概率为:

由于 可事先计算求出,而 和 未知,所以 就是我们要估计的参数(值),通俗点说,就是要最大化这个θ。

用什么方法进行估计呢,常用的参数估计方法有极大似然估计MLE、最大后验证估计MAP、贝叶斯估计等等。因为该待估计的参数中含有隐变量z,所以我们可以考虑EM算法。详细的EM算法可以参考之前写过的 EM算法 章节。

事实上,理解了pLSA模型,也就差不多快理解了LDA模型,因为LDA就是在pLSA的基础上加层贝叶斯框架,即LDA就是pLSA的贝叶斯版本(正因为LDA被贝叶斯化了,所以才需要考虑历史先验知识,才加的两个先验参数)。

下面,咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的:

LDA中,选主题和选词依然都是两个随机的过程,依然可能是先从主题分布{教育:05,经济:03,交通:02}中抽取出主题:教育,然后再从该主题对应的词分布{大学:05,老师:03,课程:02}中抽取出词:大学。

那PLSA跟LDA的区别在于什么地方呢?区别就在于:

PLSA中,主题分布和词分布是唯一确定的,能明确的指出主题分布可能就是{教育:05,经济:03,交通:02},词分布可能就是{大学:05,老师:03,课程:02}。

但在LDA中,主题分布和词分布不再唯一确定不变,即无法确切给出。例如主题分布可能是{教育:05,经济:03,交通:02},也可能是{教育:06,经济:02,交通:02},到底是哪个我们不再确定(即不知道),因为它是随机的可变化的。但再怎么变化,也依然服从一定的分布, 即主题分布跟词分布由Dirichlet先验随机确定。正因为LDA是PLSA的贝叶斯版本,所以主题分布跟词分布本身由先验知识随机给定。

换言之,LDA在pLSA的基础上给这两参数 加了两个先验分布的参数(贝叶斯化):一个主题分布的先验分布Dirichlet分布 ,和一个词语分布的先验分布Dirichlet分布 。

综上,LDA真的只是pLSA的贝叶斯版本,文档生成后,两者都要根据文档去推断其主题分布和词语分布(即两者本质都是为了估计给定文档生成主题,给定主题生成词语的概率),只是用的参数推断方法不同,在pLSA中用极大似然估计的思想去推断两未知的固定参数,而LDA则把这两参数弄成随机变量,且加入dirichlet先验。

所以,pLSA跟LDA的本质区别就在于它们去估计未知参数所采用的思想不同,前者用的是频率派思想,后者用的是贝叶斯派思想。

LDA参数估计: Gibbs采样 ,详见文末的参考文献。

推荐系统中的冷启动问题是指在没有大量用户数据的情况下如何给用户进行个性化推荐,目的是最优化点击率、转化率或用户 体验(用户停留时间、留存率等)。冷启动问题一般分为用户冷启动、物品冷启动和系统冷启动三大类。

解决冷启动问题的方法一般是基于内容的推荐。以Hulu的场景为例,对于用 户冷启动来说,我们希望根据用户的注册信息(如:年龄、性别、爱好等)、搜 索关键词或者合法站外得到的其他信息(例如用户使用Facebook账号登录,并得 到授权,可以得到Facebook中的朋友关系和评论内容)来推测用户的兴趣主题。 得到用户的兴趣主题之后,我们就可以找到与该用户兴趣主题相同的其他用户, 通过他们的历史行为来预测用户感兴趣的**是什么。

同样地,对于物品冷启动问题,我们也可以根据**的导演、演员、类别、关键词等信息推测该**所属于的主题,然后基于主题向量找到相似的**,并将新**推荐给以往喜欢看这 些相似**的用户。 可以使用主题模型(pLSA、LDA等)得到用户和**的主题。

以用户为例,我们将每个用户看作主题模型中的一篇文档,用户对应的特征 作为文档中的单词,这样每个用户可以表示成一袋子特征的形式。通过主题模型 学习之后,经常共同出现的特征将会对应同一个主题,同时每个用户也会相应地 得到一个主题分布。每个**的主题分布也可以用类似的方法得到。

那么如何解决系统冷启动问题呢? 首先可以得到每个用户和**对应的主题向量,除此之外,还需要知道用户主题和**主题之间的偏好程度,也就是哪些主题的用户可能喜欢哪些主题的**。当系统中没有任何数据时,我们需要一些先验知识来指定,并且由于主题的数目通常比较小,随着系统的上线,收集到少量的数据之后我们就可以对主题之间的偏好程度得到一个比较准确的估计。

通俗理解LDA主题模型

LDA模型应用:一眼看穿希拉里的邮件

机器学习通俗易懂系列文章

PCA是无监督的降维,降维后方差尽可能的大;

LDA是有监督的降维,希望分类后组内方差小,组间方差大;

聚类,降维;

原有的d维数据转化为k维数据(d>k),新生成的k维数据尽可能多的包含原来d为数据的信息。

让样本的均值为0;

方便后去求取协方差矩阵;

这并不属于数据预处理,因为数据预处理是对每一个特征维度进行处理的,而去中心化是针对每一个样本,这是PCA所必须的过程。

为什么要去中心化

方差:单个随机变量的离散程度;

协方差:两个随机变量的相似程度。

方差和协方差的一些区别

偏差是估计值与真实值之间的差距。

方差是描述预测值的变化范围,离散程度。

计算协方差矩阵

寻找一个线性变换u,使uX,即降维后的新数据方差最大。

这里可以令u的模长为1

根绝拉格朗日优化后可知,S=λ;

那么最大化投影方差就是最大化原数据的协方差矩阵的特征值。

最佳的投影方向就是最大特征值对应的特征向量。

选取特征值的特征向量组成投影矩阵U=[u1,u2,,uk]。

UX即为投影后新样本。

由于PCA是基于欧氏距离,因此对于线性不可分数据无能为力。

所以提出kernel PCA 。

分类,降维。

希望降维后类间距离最大,类内距离最小。

引入两个定义,类间散度Sb和类内散度Sw。

在计算类间散度和类内散度的时候用到了类别信息,所以LDA是有监督的降维。

我们描述潜在的狄利克雷分配(LDA),它是一种用于离散数据集合(如文本语料库)的生成概率模型。 LDA是一个三层次的贝叶斯模型,其中一个集合中的每个项目都被建模为一组潜在的话题(主体)类型的有限混合。反过来,每个主题都被建模为一组潜在主题概率的无限混合。 在文本建模的背景下,主题概率提供了文档的明确表示。我们提出了基于变分方法和经验贝叶斯参数估计的EM算法的高效近似推理技术。 我们会报告LDA在文档建模,文本分类和协作过滤上的实验结果,并与一元混合模型( unigrams model)和概率LSI模型相比较。

在本文中,我们考虑建模文本语料库和其他离散数据集合的问题。我们的目标是找到对一个集合的成员的简短描述,它不仅可以高效处理大型集合,同时保留对分类,异常检测,摘要(概括)以及相似性和相关性判断等基本任务有用的必要统计关系。

信息检索(IR)领域的研究人员已经在这个问题上取得了重大进展(Baeza-Yates和Ribeiro-Neto,1999)。IR研究人员为文本语料库提出的基本方法 (一种在现代互联网搜索引擎中成功部署的方法)将语料库中的每个文档变为实数表示的向量,每个实数都表示(词汇的)计数比率。流行的tf-idf方案(Salton和McGill,1983),对于文集中的每个文档选择了“词”或“术语”作为基本单位,并且计数由每个词的出现次数。在适当的归一化之后,将该术语频率计数与逆向文档频率计数进行比较,该逆向文档频率计数度量整个语料库中的词的出现次数(通常以对数刻度,并且再次适当标准化)。 最终结果是文档术语矩阵X,其列包含文档集中每个文档的tf-idf值。 因此,tf-idf方案将任意长度的文档缩减为固定长度的数字列表。

尽管tf-idf规约具有一些吸引人的特征 - 特别是(在对集合中的文档进行区分的)单词集合的基本识别中,但是在(对文档的)描述长度上,该方法并没有减少多少,并且揭示出很少的文档内或文档间的统计结构。为了解决这些缺点,IR研究人员提出了其他几种降维技术,其中最著名的是潜在语义索引(LSI)(Deerwester等,1990)。LSI使用X矩阵的奇异值分解来标识tf-idf特征空间中的线性子空间,该子空间捕获集合中的大部分变异数(variance)。这种方法可以在大型集合中实现显着压缩。此外,Deerwester等人 认为LSI的衍生特征(即原始tf-idf特征的线性组合),可以捕捉基本语言学概念的某些方面,比如同义词和多义词等。

为了证实关于LSI的主张,并研究其相对的优缺点,开发文本语料库的生成概率模型和研究LSI从数据中恢复生成模型方面的能力是有用的(Papadimitriou et al。,1998)。然而,目前尚不清楚,考虑文本的生成模型的时候,为什么应该采用LSI方法 - (其实)可以尝试更直接地进行,(比如)使用最大似然法或贝叶斯方法将模型与数据相匹配(即得到数据的模型)。

Hofmann(1999)在这方面迈出了重要的一步,他将LSI的概率LSI(pLSI)模型(也称为特征模型aspect model)作为LSI的替代品。我们在第43节中详细描述的pLSI方法将文档中的每个单词作为混合模型中的样本进行建模,其中混合组件是多项随机变量,可以将其视为“主题topics”的表示。因此,每个单词都是从单个主题生成的,而文档中的不同单词可以从不同的主题生成。每个文档都被表示为这些混合组件的混合比例列表,从而将其简化为一组固定主题的概率分布。 这种分布是与文档相关的“简化描述”。

虽然霍夫曼的工作是向文本概率建模迈出的有用的一步,但它并不完整,因为它没有提供文档层面的概率模型。在pLSI中,每个文档都被表示为一个数字列表(数字的值是主题的混合比例),并且这些数字没有生成概率模型。这导致了几个问题:(1)模型中参数的数量与语料库的大小成线性增长,这导致过度拟合的严重问题;(2)不清楚如何将概率分配给训练集之外的文档。

要了解如何超越pLSI,让我们考虑包括LSI和pLSI在内的一类降维方法的基本概率假设。所有这些方法都基于“词袋”的假设 - 文档中的单词顺序可以忽略不计。此外,尽管不经常正式说明,但这些方法也假定文档是可相互交换的; 文集中文档的具体排序也可以忽略不计。

受益于Finetti(1990),一个经典表示理论认为:任何可交换随机变量的集合都具有混合分布(通常是无限混合)的表示。因此,如果我们想考虑文件和单词的可交换表示,我们需要考虑能捕获单词和文档的可交换性的混合模型。这一思路促使我们在当前论文中提出潜在狄利克雷分配(LDA)模型。

需要强调的是,可交换性的假设并不等同于随机变量独立同分布的假设。相反,可交换性本质上可以被解释为“条件独立且分布相同”,其中的条件是与概率分布的潜在隐参数有关的。在一定条件下,随机变量的联合分布是简单的,但如果围绕隐参数考虑,联合分布可能相当复杂。因此,虽然可交换性的假设是文本建模领域的一个主要的简化假设,并且其主要理由是它是一种会导致计算效率较高的方法,但可交换性假设对简单频率的计数或线性 *** 作并不是一个必要的条件。在当前的论文中,我们的目标是,通过认真考虑de Finetti定理,可以通过混合分布获取重要的文档内统计结构。

同样值得注意的是,可交换性的基本概念有大量的总结概括,包括各种形式的部分可交换性,并且上面提到的表示法也可用于部分可交换的情况(Diaconis,1988)。因此,虽然我们在当前论文中讨论的工作集中在简单的“词袋”模型上(这表现为单个单词(unigrams)的混合分布),但我们的方法也适用于涉及较大结构混合的更丰富的模型,如n-grams或段落。

本文的结构如下: 在第2节中,我们介绍基本的表示法和术语。 LDA模型在第3节中介绍,并与第4节中的相关潜变量模型进行比较。我们在第5节讨论LDA的推理和参数估计。第6节提供了LDA拟合数据的一个说明性例子。文本建模,文本分类和协作过滤的实验结果在第7节中给出。最后,第8节给出我们的结论。

我们在整篇论文中使用 文本集合 的说法,指的是诸如“单词”,“文档”和“语料库”等实体。这很有用,因为它有助于指导靠直觉来感知的知识的处理(intuition),特别是当我们引入旨在捕捉抽象概念(如主题)的潜在变量时(潜在变量和隐变量说的是一回事)。然而,需要指出的是,LDA模型不一定与文本相关,并且可应用于涉及数据集合的其他问题,包括来自诸如协同过滤,基于内容的图像检索和生物信息学等领域的数据。 事实上,在73节中,我们将呈现在协同过滤领域的实验结果。

在形式上,我们定义下列术语:

• 单词是离散数据的基本单位,假设有一个V个词组成的词汇表(词典),索引通过{1V}表示,里面每一项代表一个单词。我们使用单位向量表示单词,它里面一项等于1其他项等于零。我们使用上标来表示第几个成分,因此第v个词在V维向量w中表示为:w v = 1 and w u = 0 for u ≠ v

• 文档中的词来自一个包含N个词的词典,一个文档可以表示成N个词组成的序列,可以表示为 w = (w 1 ,w 2 w N ),下标表示第几个词。(注意,每个词用一个V维的向量表示,每篇文档有最多有N个不同的词,不要搞混了)

• 一个语料库是含有M个文档的集合,用 D = ( w 1 , w 2 w M )----注意有加粗

我们希望找到一个语料库的概率模型,它不仅为语料库成员分配高概率,而且为其他“类似”文档分配高概率。(意思就是说,语料库中某一文档的某个topic概率比较高,那么测试相似文档。也能得到相同的概率分布)

隐在狄利克雷分配(LDA)是语料库的生成概率模型。 其基本思想是文档被表示为潜在主题的随机混合,每个主题都是有不同的文字(词)分布特征的。

LDA为语料库 D 中的每个文档 w 假定以下生成过程:

在这个基本模型中做了几个简化的假设,其中一些我们在后面的章节中会删除。首先,Dirichlet分布的维度k(以及主题变量z的维度)被假定为已知并且是固定的。其次,单词概率通过k×V矩阵 β 进行参数化,其中 β ij = p(w j = 1 | z i = 1)(猜测:它表示在某个主题中索引为i的词出现的条件下,文档中第j个词出现的概率),现在我们将其视为待估计的固定量。最后,泊松假设对随后的任何事情都不是关键的,并且可以根据需要使用更真实的文档长度分布。此外,请注意,N与所有其他数据生成变量(θ和z)无关。 因此它是一个辅助变量,我们通常会忽略它在随后发展中的随机性。

一个k维Dirichlet随机变量θ可以从(k − 1)-simplex(单形或单纯形)中取值,并且在这个单纯形中有以下概率密度:

α 参数是一个k维向量,并且 α 的每一项都满足α i > 0,另外Γ(x)是 伽马函数 。狄利克雷分布在单形(属于指数族)上是一种实用的分布,具有有限维数的充分统计量,并且与多项分布共轭。

在第5节中,这些属性将有助于开发LDA的推理和参数估计算法。

给定参数α和β,主题混合分布θ、主题 z 和文档 w 的联合分布为:

上式表示给定参数α和β的条件下,文档的概率分布。

最后,利用单个文档边际概率的乘积,得到一个语料库的概率分布:

区分LDA和简单的Dirichlet多项式聚类模型很重要。 经典的聚类模型会涉及到一个两层模型:其中,一个Dirichlet为一个语料库抽样一次,一个多项式聚类变量为语料库中的每个文档选择一次,并且以聚类变量为条件,为文档选择一组词语 。与许多聚类模型一样,这种模型将文档限制为与单个主题相关联。另一方面,LDA涉及三个层次,特别是主题节点在文档中被重复采样。在这种模式下,文档可以与多个主题相关联。

图1所示类似结构通常在贝叶斯统计建模中研究,它们被称为分层模型(Gelman等,1995),或者更准确地说,是条件独立的分层模型(Kass和Steffey,1989)。这种模型通常也被称为参数经验贝叶斯模型(parametric empirical Bayes models),这个术语不仅指特定的模型结构,而且还指用于估计模型参数的方法(Morris,1983)。事实上,正如我们在第5节中讨论的那样,我们采用经验贝叶斯方法来估计一个LDA简单实现中的参数(比如,α和β等),但我们也考虑了更充分的贝叶斯方法。

如果联合分布对于置换是不变的,那么一个有限的随机变量集{z 1 z N }被认为是可交换的。 如果π(此π非彼π)表示某种整数从1到N的置换规则,则:

p(z 1 z N ) = p(z π(1) z π(N) )

如果每个有限的子序列是可交换的,则无限序列的随机变量是无限可交换的。

De Finetti的表示定理指出,随机变量的无限可交换序列的联合分布就好像从一些分布中抽取的一个随机参数,以该参数为条件,所讨论的随机变量是独立同分布的。

在LDA中,我们假设单词是由主题(通过固定的条件分布)生成的,而且这些主题在文档中是无限可交换的。根据菲内蒂定理,一组词汇和话题的概率必须具有以下这种形式:

θ是关于主题的多项式的随机参数。通过边缘化主题变量并赋予θ狄利克雷分布,在公式(3)中,我们获得了文档的LDA分布。

图1所示的LDA模型比传统分层贝叶斯文献中经常研究的两层模型要复杂得多。然而,通过边缘化隐藏的主题变量z,我们可以将LDA理解为两层模型。

特别是,让我们来构造单词分布p(w|θ,β):

请注意,这是一个随机量,因为它取决于θ。

我们现在为文档 w 定义下面的生成过程:(对每篇文档)

该过程将文档的边际分布定义为连续混合分布:(注意下式表示的是语料库,而非一篇文档 的分布)

图2说明了LDA的这种解释。 它描绘了LDA模型的一个特定实例引发的p(w| θ,β)的分布。请注意,在(V-1) - simplex中的这种分布仅通过k + kV个参数实现,但展现出非常有趣的多模式结构。

在本节中,我们将LDA与文本的简单潜(隐)变量模型(一元模型,一元模型的混合模型和pLSI模型)进行比较。 此外,我们提出了这些模型的统一几何解释,突出了它们的主要区别和相似之处。

在一元模型下,每个文档的单词都是独立的按照某个多项分布而绘制的,生成文档的概率为:

如果我们用一个离散的随机主题变量z(图3b)来扩充一元模型,我们就可以得到一个混合一元模型(Nigam et al,2000)。在这个混合模型下,首先选择一个主题z,然后从条件多项式p(w | z)独立的生成N个单词,从而生成每个文档(该文档中的所有词都来自一个主题)。一篇文档的概率分布:

在每个文档仅显示一个主题的假设背景下,当从语料库做概率估计时,可以将词语分布视为主题的表示。正如第7节的实证结果所示,这种假设通常限制性太强,以至于无法有效地建模量大的文献。

相反,LDA模型允许文档在不同程度上展示多个主题。这是以(增加)一个额外参数为代价实现的:在混合一元模型中有与p(z)相关的参数有k-1个,而在LDA中与p(θ | α)有关的参数有k个。

概率潜在语义索引(pLSI)是另一个广泛使用的文档模型(Hofmann,1999)。 如图3c所示,给定了未知的主题z,pLSI模型假设文档标签d和单词w n 是条件独立的:

使用pLSI的另一个困难(也是来自于通过训练文档进行索引的分布的使用)是必须估计的参数数量与训练文档的数量呈线性增长。k-主题pLSI模型的参数是在k个未知主题上,V和M混合大小的k个多项式分布。这给出了kV + kM个参数,因此在M中线性增长。参数的线性增长表明该模型容易出现过度拟合,并且根据经验确定,过拟合确实是一个严重的问题(参见第71节)。在实践中,使用回火试探来平滑模型的参数以获得可接受的预测性能。 然而,已经表明,即使在使用回火时也可能发生过度拟合(Popescul et al,2001)。

LDA通过将主题混合权重视为一个k个参数的隐藏的随机变量,而不是大量与训练集明确关联的单个参数,来克服这两个问题。如第3节所述,LDA是一个良好定义的生成模型,可轻松推广到新文档。此外,k-topic LDA模型中的k + kV个参数不会随着训练语料库的大小而增长。我们将在71节看到,LDA不会遇到与pLSI相同的过度拟合问题。

说明LDA和其他潜在主题模型之间差异的一种好方法是考虑潜在空间的几何形状,并了解每个模型下文档在该几何体中的表示方式。

上述所有四种模型(unigram, mixture of unigrams, pLSI, and LDA)都是在单词分布空间中进行 *** 作的。每个这样的分布可以被看作是(V-1) - simplex上的一个点,我们称之为词单纯形(the word simplex)。

一元模型在词单纯形上找到一个单一的点,并假定文集中的所有单词来自相应的分布。潜变量模型考虑词单纯形上的k个点,并根据这些点构成子单形体,我们称之为主题单纯形。请注意,主题单纯形上的任何一点也是单词单纯形上的一个点。不同的潜在变量模型以不同的方式使用主题单纯形来生成文档。

• 混合一元模型假设,对于每个文档,词单纯形中的k个点(即,主题单纯形的那些角中的一个)中的一个一旦随机选择后,文档的所有单词都从对应于那一点的分布中获取。

• pLSI模型假定训练文档的每个单词来自随机选择的主题。这些主题本身来自于文档在主题上的特征分布,也就是主题单纯形上的一个角点。每个文件有一个这样的分布,训练文档集因此定义了关于主题单纯形的经验分布。

• LDA假定观察到的(训练集)和未看到的(验证集)文档中的每个词都是由随机选择的主题生成的,该主题是从具有一个随机选择参数的分布中抽取的。 从主题单纯形的平滑分布中,每个文档对此参数进行一次采样。

这些差异在图4中突出显示。

我们描述了使用LDA背后的动机,并说明了其与其他潜在主题模型相比的概念优势。在本节中,我们将注意力转向LDA下的推理和参数估计。

为了使用LDA我们需要解决的关键推理问题是计算给定文档的隐藏变量的后验分布:

不幸的是,这种分布通常难以计算。 实际上,为了规范化分布,我们将忽视隐藏变量并根据模型参数重写方程(3):

这是一个由于在潜在主题的总和中θ和β之间的耦合,而难以处理的函数(Dickey,1983)。Dickey表示这个函数是在Dirichlet分布的特定扩展下的期望,可以用特殊的超几何函数表示。它在贝叶斯环境中可用于删除(或审查,censored 暂时不明白怎么翻译)离散数据,以表示θ的后验(在该设置中,θ是随机参数)(Dickey等,1987)。

尽管后验分布对于精确推断是难以处理的,但是对于LDA可以考虑各种各样的近似推理算法,包括拉普拉斯近似,变分近似和马尔可夫链蒙特卡罗(Jordan,1999)。在本节中,我们描述了一个简单的基于凸性的变分算法,用于推断LDA,并讨论了第8节中的一些替代方案。

基于凸性的变分推理的基本思想是利用Jensen不等式来获得对数似然的可调下界(Jordan et al。,1999)。本质上,人们考虑一系列下界,它们由一组变分参数索引。变分参数由优化程序选择,该程序试图找到最可能的下限。

获得易处理的下界族的简单方法是考虑原始图形模型的简单修改,原始图形模型中一些边和节点已被移除。特别考虑图5(左)中所示的LDA模型。 θ和β之间的有问题的耦合是由于θ,z和w之间的边界而产生的。 通过丢弃这些边和w节点,并赋予所得到的简化图形模型以及自由变分参数,我们获得了潜在变量的一个分布族。这个分布族以下面这个变分分布为特征:

已经指定了简化的概率分布族,下一步是建立一个确定变分参数γ和Φ的值的优化问题。 正如我们在附录A中所示,找到对数似然的紧密下界的期望直接转化为以下优化问题:

因此,通过最小化变分分布和真实后验p(θ, z | w,α,β)之间的KullbackLeibler(KL)发散来找到变分参数的优化值。这种最小化可以通过迭代定点方法实现。 特别是,我们在附录A3中表明,通过计算KL散度的导数并将它们设置为零,我们得到以下一对更新方程:

最近有新的项目做,没时间翻译啦,以后有时间再填坑,此处省略3000字

在上一节我们一起学习了LDA中的一些数学知识,主要学习了二项分布、Beta分布、多项式分布以及狄利克雷分布,这四个分布是有一定联系的,beta分布是二项分布的共轭先验分布,狄利克雷分布是多项式分布的共轭先验分布。那什么是共轭先验分布呢?我们一起来一步步了解一下这个神秘的知识点。

首先我们来介绍一下三种信息:

即总体分布或总体所属分布族给我们的信息,譬如,总体是正态分布这一句话就给我们带来很多信息:它的密度函数是一条钟形曲线等等。总体信息是很重要的信息,但是为了获取此种信息往往耗资巨大。

即从总体抽取的样本给我们提供的信息,人们希望通过对样本的加工或者处理对总体的某些特征作出较为精确的统计推断,没有样本就没有统计学可言。

基于上面的两种信息进行的统计推断被称为经典统计学,它的基本观点是把数据看成是来自具有一定概率分布的总体,所研究的对象是这个整体而不限于数据本身。

即在抽样之前有关统计问题的一些信息,一般来说,先验信息主要来源于经验和历史资料。先验信息在日常生活和工作中也经常可见,不少人在自觉地活不自觉的使用它。

基于上面三种信息进行的统计推断被称为贝叶斯统计学,它与经典统计学的主要差别在于是否利用先验信息。在使用样本信息上也是有差异的。贝叶斯学派重视已出现的样本观察值,而对尚未发生的样本观察值不予考虑,贝叶斯学派很重视先验收集、挖掘和加工,使他数量化,形成先验分布,参加到统计推断中来。以提高统计推断的质量。

贝叶斯学派的最基本的观点是,任何一个未知量θ,都可以看作一个随机变量,应用一个概率分布去描述θ的未知状况。这个概率分布是在抽样前就有关于θ的先验信息的概率陈述,这个概率分布被称为先验分布。

举个简单的例子,学生估计一新教师的年龄,依据学生们的生活经历,在看了新教师的照片后立即会有反应:“新教师的年龄在30-50岁之间,极有可能在40岁左右”,一位统计学家与学生们交谈,明确这句话中的“左右”可理解为岁,“极有可能”可理解为90%的把握,于是学生们对新教师年龄的认识(先验信息)可综合为下图的概率分布,这个概率分布就是所谓的先验分布:

上图中的概率09不是在大量重复试验中获得的,而是学生们根据自己的生活经历的积累对该事件发生可能性所给出的信念。这样给出的概率在贝叶斯统计中是允许的,并称为主观概率。贝叶斯学派认为引入主观概率以及由此确定的先验分布至少把概率与统计的研究与应用范围扩大到不能大量重复的随机现象中来。其次,主观概率的确定不是随意的,而是要求当事人对所观察的事件有比较透彻的了解和丰富的经验,甚至是这一行的专家,在这个基础上确定的主观概率就能符合实际。

依赖于参数θ的密度函数在经典统计中记为p(x;θ),表示在参数空间中针对不同的θ对应不同的分布。在贝叶斯统计中记为p(x|θ),它表示在随机变量θ给定某个值时,总体指标X的条件分布。

根据参数θ的先验信息我们能确定先验分布π(θ),那么从贝叶斯观点来看,样本x=(x1,x2,xn)的产生要分两步进行,首先设想从先验分布π(θ)产生一个样本θ,第二步时从总体分布p(x|θ)产生一个样本x=(x1,x2,xn),这个样本是具体的,是人们可以看得到的,此样本发生的概率与如下联合密度函数成正比:

这个函数常被称为似然函数,记为L(θ')。

在上面的式子中,θ'时设想出来的,它仍是未知的,是按先验分布π(θ)而产生的,要把先验信息进行综合,不能只考虑θ',而应对θ的一切可能加以考虑,故要用π(θ)参与进一步综合,所以样本x和参数θ的联合分布为:

h(x,θ)=π(θ|x)m(x)

其中m(x)是x的边缘密度函数:

先验分布π(θ)是反映人们在抽样前对θ的认识,后验分布π(θ|x)是反映人们在抽样后对θ的认识。之间的差异是由于样本x出现后人们对θ认识的一种调整。所以后验分布π(θ|x)可以看作是人们用总体信息和样本信息对先验分布π(θ)做调整的结果。

考虑之前用于计算后验概率的式子:

有时我们将p(x|θ)称为似然函数,先验概率π(θ)和似然函数的乘积,然后归一化得到后验 概率 P(θ | x) 。共轭先验的定义为:如果后验概率分布和先验概率分布有相同的形式(如同为指数 族分布),则后验概率分布和先验概率分布统称共轭分布。那么先验概率π(θ)称为似然函数的共轭先验。

由此可见,后验分布和先验分布都是beta分布,所以beta分布和二项分布是共轭先验分布。

同样多项式分布和Dirichlet分布也是共轭先验分布:证明如下:

也就是说:

以上就是关于我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)全部的内容,包括:我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)、PCA和LDA、Latent Dirichlet Allocation(隐狄利克雷分配模型)——论文翻译与分析等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9511934.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存