最大似然估计单调增怎么办_安全

热门频道
首页
博客
学院
VIP
APP
问答
下载
推荐频道
论坛
活动
招聘
专题
打开CSDN APP
Copyright © 1999-2020, CSDNNET, All Rights Reserved
程序员必备的浏览器插件
登录
极大似然估计与最大似然估计原创
2012-04-10 09:04:52

deepfuture
码龄11年
关注
1、极大似然估计是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法，极大似然原理的直观想法是：一个随机试验如有若干个可能的结果A，B，C，…。若在一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。
可以这么理解，在多次试验中，试验条件X使众多试验结果的A结果发生的概率很大，我们计算这个试验条件的相关参数。你还可以更广泛地理解，在X发生的前提下，A发生的概率很大，我们知道A发生的概率，需要求出X发生的相关参数
极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。
2、求极大似然函数估计值的一般步骤：
（1）写出似然函数；
（2）对似然函数取对数，并整理；
（3）求导数；
（4）解似然方程
极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。
当然极大似然估计只是一种粗略的数学期望，要知道它的误差大小还要做区间估计。
3、
最大似然估计法的基本思想
最大似然估计法的思想很简单：在已经得到试验结果的情况下，我们应该寻找使这个结果出现的可能性最大的那个作为真的估计。
我们分两种情进行分析：
1．离散型总体　
设为离散型随机变量，其概率分布的形式为，则样本的概率分布为，在固定时，上式表示取值的概率；当固定时，它是的函数，我们把它记为并称为似然函数。似然函数的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值，那它出现的可能性应该是大的，即似然函数的值应该是大的。因而我们选择使达到最大值的那个作为真的估计。
2．连续型总体
设为连续型随机变量，其概率密度函数为则为从该总体抽出的样本。因为相互独立且同分布，于是，样本的联合概率密度函数为
，在是固定时，它是在处的密度，它的大小与落在附近的概率的大小成正比，而当样本值固定时，它是的函数。我们仍把它记为并称为似然函数。类似于刚才的讨论，我们选择使最大的那个作为真的估计。
　
总之，在有了试验结果即样本值时，似然函数反映了的各个不同值导出这个结果的可能性的大小。我们选择使达到最大值的那个作为真的估计。这种求点估计的方法就叫作最大似然法。
　 722　最大似然估计的求法
假定现在我们已经观测到一组样本要去估计未知参数。一种直观的想法是，哪一组能数值使现在的样本出现的可能性最大，哪一组参数可能就是真正的参数，我们就要用它作为参数的估计值。这里，假定我们有一组样本如果对参数的两组不同的值和，似然函数有如下关系
,
那么，从又是概率密度函数的角度来看，上式的意义就是参数使出现的可能性比参数使出现的可能性大，当然参数比更像是真正的参数这样的分析就导致了参数估计的一种方法，即用使似然函数达到最大值的点,作为未知参数的估计，这就是所谓的最大似然估计。现在我们讨论求最大似然估计的具体方法为简单起见，以下记,求θ的极大似然估计就归结为求的最大值点由于对数函数是单调增函数，所以
(721)
　与有相同的最大值点。而在许多情况下，求的最大值点比较简单，于是，我们就将求的最大值点改为求的最大值点对关于求导数，并命其等于零，得到方程组
, (722)
称为似然方程组。解这个方程组，又能验证它是一个极大值点，则它必是，也就是的最大值点，即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情况下，问题比较复杂，似然方程组的解可能不唯一，这时就需要进一步判定哪一个是最大值点。
还需要指出，若函数关于的导数不存在时，我们就无法得到似然方程组 (722)，这时就必须根据最大似然估计的定义直接去的最大值点。
在一些情况下，我们需要估计。如果分别是的最大似然估计，则称为的最大似然估计。
下面我们举一些例子来说明求最大似然估计的方法。
例 721 设从正态总体抽出样本，这里未知参数为mm 和（注意我们把看作一个参数）。似然函数为

=
它的对数为
，
似然方程组为
　
由第一式解得
　， (723)
代入第二式得
　 (724)
似然方程组有唯一解(，)，而且它一定是最大值点，这是因为当或或∞时，非负函数。于是和的最大似然估计为
， (725)
这里，我们用大写字母表示所有涉及的样本，因为最大似然估计和都是统计量，离开了具体的一次试验或观测，它们都是随机的。
例722　设总体服从参数为的泊松分布，它的分布律为
，
有了样本之后，参数λ的似然函数为
　，
似然方程为
　，
解得

因为的二阶导数总是负值，可见，似然函数在处达到最大值。所以，是λ的最大似然估计。
例723 设总体为上的均匀分布，求的最大似然估计。
的概率密度函数为
　
对样本，
　
很显然，L(a，b)作为a和b的二元函数是不连续的。这时我们不能用似然方程组(722)来求最大似然估计，而必须从最大似然估计的定义出发，求L(a，b)的最大值。为使L(a，b)达到最大，b－a应该尽量地小，但b又不能小于，否则，L(a，b)=0。
类似地，a不能大过。因此，a和b的最大似然估计为
　，
　
现在为止，我们以正态分布，泊松分布，均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。在我们所举的例子中，除了均匀分布外，两种估计都是一致的。矩估计的优点是简单，只需知道总体的矩，总体的分布形式不必知道。而最大似然估计则必须知道总体分布形式，并且在一般情况下，似然方程组的求解较复杂，往往需要在计算机上通过迭代运算才能计算出其近似解。
展开全文
极大似然估计法仿真程序
极大似然估计的实现，极大似然估计的实仿真程序，锚的坐标计算。
浏览器打开
逻辑回归与最大似然估计推导
目录逻辑回归（对数几率回归） 1广义线性模型 2逻辑回归的假设 3 逻辑回归的代价函数为什么LR中使用交叉熵损失函数而不使用MSE损失函数？ 3 极大似然估计 4 利用梯度下降法求解参数w 41 三种梯度下降方法的选择 5逻辑回归优缺点：

参考资料：

逻辑回归（对数几率回归）逻辑回归是一种分类算法，不是回归算法，因为它用了和回归类似的思想来解决了分类问题
浏览器打开
deepfuture
这篇文章对你有帮助吗？作为一名程序工程师，在评论区留下你的困惑或你的见解，大家一起来交流吧！
极大似然估计和最大似然估计定义
>建议你先看一下这本书:
Modeling Survival Data Using Frailty Models
chap 2 Some Parametric Methods
21 Introduction 19
22 Exponential Distribution 20
23 Weibull Distribution 21
24 Extreme Value Distributions 23
25 Lognormal 25
26 Gamma 26
27 Loglogistic 29
28 Maximum Likelihood Estimation 30
29 Parametric Regression Models
chap 6 Estimation Methods for Shared Frailty Models
61 Introduction 105
62 Inference for the Shared Frailty Model 106
63 The EM Algorithm 108
64 The Gamma Frailty Model 110
65 The Positive Stable Frailty Model 111
66 The Lognormal Frailty Model 113
661 Application to Seizure Data 113
67 Modified EM (MEM) Algorithm for Gamma Frailty Models 114
68 Application
然后用最基本的package "survival"
并参考你的模型可能用到的一些functions:
survreg(formula, data, weights, subset,naaction, dist="weibull",)
survregdistributions include "weibull", "exponential", "gaussian",
"logistic","lognormal" and "loglogistic"
frailty(x, distribution="gamma", )
distribution: either the gamma, gaussian or t distribution may be specified
frailtygamma(x, sparse = (nclass > 5), theta, df, eps = 1e-05,
method = c("em","aic", "df", "fixed"),)

我们描述潜在的狄利克雷分配（LDA），它是一种用于离散数据集合（如文本语料库）的生成概率模型。 LDA是一个三层次的贝叶斯模型，其中一个集合中的每个项目都被建模为一组潜在的话题（主体）类型的有限混合。反过来，每个主题都被建模为一组潜在主题概率的无限混合。在文本建模的背景下，主题概率提供了文档的明确表示。我们提出了基于变分方法和经验贝叶斯参数估计的EM算法的高效近似推理技术。我们会报告LDA在文档建模，文本分类和协作过滤上的实验结果，并与一元混合模型（ unigrams model）和概率LSI模型相比较。

在本文中，我们考虑建模文本语料库和其他离散数据集合的问题。我们的目标是找到对一个集合的成员的简短描述，它不仅可以高效处理大型集合，同时保留对分类，异常检测，摘要（概括）以及相似性和相关性判断等基本任务有用的必要统计关系。

信息检索（IR）领域的研究人员已经在这个问题上取得了重大进展（Baeza-Yates和Ribeiro-Neto，1999）。IR研究人员为文本语料库提出的基本方法（一种在现代互联网搜索引擎中成功部署的方法）将语料库中的每个文档变为实数表示的向量，每个实数都表示（词汇的）计数比率。流行的tf-idf方案（Salton和McGill，1983），对于文集中的每个文档选择了“词”或“术语”作为基本单位，并且计数由每个词的出现次数。在适当的归一化之后，将该术语频率计数与逆向文档频率计数进行比较，该逆向文档频率计数度量整个语料库中的词的出现次数（通常以对数刻度，并且再次适当标准化）。最终结果是文档术语矩阵X，其列包含文档集中每个文档的tf-idf值。因此，tf-idf方案将任意长度的文档缩减为固定长度的数字列表。

尽管tf-idf规约具有一些吸引人的特征 - 特别是（在对集合中的文档进行区分的）单词集合的基本识别中，但是在（对文档的）描述长度上，该方法并没有减少多少，并且揭示出很少的文档内或文档间的统计结构。为了解决这些缺点，IR研究人员提出了其他几种降维技术，其中最著名的是潜在语义索引（LSI）（Deerwester等，1990）。LSI使用X矩阵的奇异值分解来标识tf-idf特征空间中的线性子空间，该子空间捕获集合中的大部分变异数（variance）。这种方法可以在大型集合中实现显着压缩。此外，Deerwester等人认为LSI的衍生特征（即原始tf-idf特征的线性组合），可以捕捉基本语言学概念的某些方面，比如同义词和多义词等。

为了证实关于LSI的主张，并研究其相对的优缺点，开发文本语料库的生成概率模型和研究LSI从数据中恢复生成模型方面的能力是有用的（Papadimitriou et al。，1998）。然而，目前尚不清楚，考虑文本的生成模型的时候，为什么应该采用LSI方法 - （其实）可以尝试更直接地进行，（比如）使用最大似然法或贝叶斯方法将模型与数据相匹配（即得到数据的模型）。

Hofmann（1999）在这方面迈出了重要的一步，他将LSI的概率LSI（pLSI）模型（也称为特征模型aspect model）作为LSI的替代品。我们在第43节中详细描述的pLSI方法将文档中的每个单词作为混合模型中的样本进行建模，其中混合组件是多项随机变量，可以将其视为“主题topics”的表示。因此，每个单词都是从单个主题生成的，而文档中的不同单词可以从不同的主题生成。每个文档都被表示为这些混合组件的混合比例列表，从而将其简化为一组固定主题的概率分布。这种分布是与文档相关的“简化描述”。

虽然霍夫曼的工作是向文本概率建模迈出的有用的一步，但它并不完整，因为它没有提供文档层面的概率模型。在pLSI中，每个文档都被表示为一个数字列表（数字的值是主题的混合比例），并且这些数字没有生成概率模型。这导致了几个问题：（1）模型中参数的数量与语料库的大小成线性增长，这导致过度拟合的严重问题;（2）不清楚如何将概率分配给训练集之外的文档。

要了解如何超越pLSI，让我们考虑包括LSI和pLSI在内的一类降维方法的基本概率假设。所有这些方法都基于“词袋”的假设 - 文档中的单词顺序可以忽略不计。此外，尽管不经常正式说明，但这些方法也假定文档是可相互交换的; 文集中文档的具体排序也可以忽略不计。

受益于Finetti（1990），一个经典表示理论认为：任何可交换随机变量的集合都具有混合分布（通常是无限混合）的表示。因此，如果我们想考虑文件和单词的可交换表示，我们需要考虑能捕获单词和文档的可交换性的混合模型。这一思路促使我们在当前论文中提出潜在狄利克雷分配（LDA）模型。

需要强调的是，可交换性的假设并不等同于随机变量独立同分布的假设。相反，可交换性本质上可以被解释为“条件独立且分布相同”，其中的条件是与概率分布的潜在隐参数有关的。在一定条件下，随机变量的联合分布是简单的，但如果围绕隐参数考虑，联合分布可能相当复杂。因此，虽然可交换性的假设是文本建模领域的一个主要的简化假设，并且其主要理由是它是一种会导致计算效率较高的方法，但可交换性假设对简单频率的计数或线性 *** 作并不是一个必要的条件。在当前的论文中，我们的目标是，通过认真考虑de Finetti定理，可以通过混合分布获取重要的文档内统计结构。

同样值得注意的是，可交换性的基本概念有大量的总结概括，包括各种形式的部分可交换性，并且上面提到的表示法也可用于部分可交换的情况（Diaconis，1988）。因此，虽然我们在当前论文中讨论的工作集中在简单的“词袋”模型上（这表现为单个单词（unigrams）的混合分布），但我们的方法也适用于涉及较大结构混合的更丰富的模型，如n-grams或段落。

本文的结构如下：在第2节中，我们介绍基本的表示法和术语。 LDA模型在第3节中介绍，并与第4节中的相关潜变量模型进行比较。我们在第5节讨论LDA的推理和参数估计。第6节提供了LDA拟合数据的一个说明性例子。文本建模，文本分类和协作过滤的实验结果在第7节中给出。最后，第8节给出我们的结论。

我们在整篇论文中使用 文本集合 的说法，指的是诸如“单词”，“文档”和“语料库”等实体。这很有用，因为它有助于指导靠直觉来感知的知识的处理（intuition），特别是当我们引入旨在捕捉抽象概念（如主题）的潜在变量时（潜在变量和隐变量说的是一回事）。然而，需要指出的是，LDA模型不一定与文本相关，并且可应用于涉及数据集合的其他问题，包括来自诸如协同过滤，基于内容的图像检索和生物信息学等领域的数据。事实上，在73节中，我们将呈现在协同过滤领域的实验结果。

在形式上，我们定义下列术语：
• 单词是离散数据的基本单位，假设有一个V个词组成的词汇表（词典），索引通过{1V}表示，里面每一项代表一个单词。我们使用单位向量表示单词，它里面一项等于1其他项等于零。我们使用上标来表示第几个成分，因此第v个词在V维向量w中表示为：w v = 1 and w u = 0 for u ≠ v
• 文档中的词来自一个包含N个词的词典，一个文档可以表示成N个词组成的序列，可以表示为 w = (w 1 ,w 2 w N )，下标表示第几个词。（注意，每个词用一个V维的向量表示，每篇文档有最多有N个不同的词，不要搞混了）
• 一个语料库是含有M个文档的集合，用 D = ( w 1 , w 2 w M )----注意有加粗

我们希望找到一个语料库的概率模型，它不仅为语料库成员分配高概率，而且为其他“类似”文档分配高概率。（意思就是说，语料库中某一文档的某个topic概率比较高，那么测试相似文档。也能得到相同的概率分布）

隐在狄利克雷分配（LDA）是语料库的生成概率模型。其基本思想是文档被表示为潜在主题的随机混合，每个主题都是有不同的文字（词）分布特征的。

LDA为语料库 D 中的每个文档 w 假定以下生成过程：

在这个基本模型中做了几个简化的假设，其中一些我们在后面的章节中会删除。首先，Dirichlet分布的维度k（以及主题变量z的维度）被假定为已知并且是固定的。其次，单词概率通过k×V矩阵 β 进行参数化，其中 β ij = p（w j = 1 | z i = 1）（猜测：它表示在某个主题中索引为i的词出现的条件下，文档中第j个词出现的概率），现在我们将其视为待估计的固定量。最后，泊松假设对随后的任何事情都不是关键的，并且可以根据需要使用更真实的文档长度分布。此外，请注意，N与所有其他数据生成变量（θ和z）无关。因此它是一个辅助变量，我们通常会忽略它在随后发展中的随机性。

一个k维Dirichlet随机变量θ可以从(k − 1)-simplex（单形或单纯形）中取值，并且在这个单纯形中有以下概率密度：

α 参数是一个k维向量，并且 α 的每一项都满足α i > 0，另外Γ(x)是伽马函数。狄利克雷分布在单形（属于指数族）上是一种实用的分布，具有有限维数的充分统计量，并且与多项分布共轭。

在第5节中，这些属性将有助于开发LDA的推理和参数估计算法。

给定参数α和β，主题混合分布θ、主题 z 和文档 w 的联合分布为：

上式表示给定参数α和β的条件下，文档的概率分布。

最后，利用单个文档边际概率的乘积，得到一个语料库的概率分布：

区分LDA和简单的Dirichlet多项式聚类模型很重要。经典的聚类模型会涉及到一个两层模型：其中，一个Dirichlet为一个语料库抽样一次，一个多项式聚类变量为语料库中的每个文档选择一次，并且以聚类变量为条件，为文档选择一组词语。与许多聚类模型一样，这种模型将文档限制为与单个主题相关联。另一方面，LDA涉及三个层次，特别是主题节点在文档中被重复采样。在这种模式下，文档可以与多个主题相关联。

图1所示类似结构通常在贝叶斯统计建模中研究，它们被称为分层模型（Gelman等，1995），或者更准确地说，是条件独立的分层模型（Kass和Steffey，1989）。这种模型通常也被称为参数经验贝叶斯模型（parametric empirical Bayes models），这个术语不仅指特定的模型结构，而且还指用于估计模型参数的方法（Morris，1983）。事实上，正如我们在第5节中讨论的那样，我们采用经验贝叶斯方法来估计一个LDA简单实现中的参数（比如，α和β等），但我们也考虑了更充分的贝叶斯方法。

如果联合分布对于置换是不变的，那么一个有限的随机变量集{z 1 z N }被认为是可交换的。如果π（此π非彼π）表示某种整数从1到N的置换规则，则：

p(z 1 z N ) = p(z π(1) z π(N) )

如果每个有限的子序列是可交换的，则无限序列的随机变量是无限可交换的。

De Finetti的表示定理指出，随机变量的无限可交换序列的联合分布就好像从一些分布中抽取的一个随机参数，以该参数为条件，所讨论的随机变量是独立同分布的。

在LDA中，我们假设单词是由主题（通过固定的条件分布）生成的，而且这些主题在文档中是无限可交换的。根据菲内蒂定理，一组词汇和话题的概率必须具有以下这种形式：

θ是关于主题的多项式的随机参数。通过边缘化主题变量并赋予θ狄利克雷分布，在公式（3）中，我们获得了文档的LDA分布。

图1所示的LDA模型比传统分层贝叶斯文献中经常研究的两层模型要复杂得多。然而，通过边缘化隐藏的主题变量z，我们可以将LDA理解为两层模型。

特别是，让我们来构造单词分布p(w|θ,β)：

请注意，这是一个随机量，因为它取决于θ。

我们现在为文档 w 定义下面的生成过程：（对每篇文档）

该过程将文档的边际分布定义为连续混合分布：（注意下式表示的是语料库，而非一篇文档的分布）

图2说明了LDA的这种解释。它描绘了LDA模型的一个特定实例引发的p(w| θ,β)的分布。请注意，在（V-1） - simplex中的这种分布仅通过k + kV个参数实现，但展现出非常有趣的多模式结构。

在本节中，我们将LDA与文本的简单潜（隐）变量模型（一元模型，一元模型的混合模型和pLSI模型）进行比较。此外，我们提出了这些模型的统一几何解释，突出了它们的主要区别和相似之处。

在一元模型下，每个文档的单词都是独立的按照某个多项分布而绘制的，生成文档的概率为：

如果我们用一个离散的随机主题变量z（图3b）来扩充一元模型，我们就可以得到一个混合一元模型（Nigam et al，2000）。在这个混合模型下，首先选择一个主题z，然后从条件多项式p（w | z）独立的生成N个单词，从而生成每个文档（该文档中的所有词都来自一个主题）。一篇文档的概率分布：

在每个文档仅显示一个主题的假设背景下，当从语料库做概率估计时，可以将词语分布视为主题的表示。正如第7节的实证结果所示，这种假设通常限制性太强，以至于无法有效地建模量大的文献。

相反，LDA模型允许文档在不同程度上展示多个主题。这是以（增加）一个额外参数为代价实现的：在混合一元模型中有与p(z)相关的参数有k-1个，而在LDA中与p（θ | α）有关的参数有k个。

概率潜在语义索引（pLSI）是另一个广泛使用的文档模型（Hofmann，1999）。如图3c所示，给定了未知的主题z，pLSI模型假设文档标签d和单词w n 是条件独立的：

使用pLSI的另一个困难（也是来自于通过训练文档进行索引的分布的使用）是必须估计的参数数量与训练文档的数量呈线性增长。k-主题pLSI模型的参数是在k个未知主题上，V和M混合大小的k个多项式分布。这给出了kV + kM个参数，因此在M中线性增长。参数的线性增长表明该模型容易出现过度拟合，并且根据经验确定，过拟合确实是一个严重的问题（参见第71节）。在实践中，使用回火试探来平滑模型的参数以获得可接受的预测性能。然而，已经表明，即使在使用回火时也可能发生过度拟合（Popescul et al，2001）。

LDA通过将主题混合权重视为一个k个参数的隐藏的随机变量，而不是大量与训练集明确关联的单个参数，来克服这两个问题。如第3节所述，LDA是一个良好定义的生成模型，可轻松推广到新文档。此外，k-topic LDA模型中的k + kV个参数不会随着训练语料库的大小而增长。我们将在71节看到，LDA不会遇到与pLSI相同的过度拟合问题。

说明LDA和其他潜在主题模型之间差异的一种好方法是考虑潜在空间的几何形状，并了解每个模型下文档在该几何体中的表示方式。

上述所有四种模型（unigram, mixture of unigrams, pLSI, and LDA）都是在单词分布空间中进行 *** 作的。每个这样的分布可以被看作是（V-1） - simplex上的一个点，我们称之为词单纯形（the word simplex）。

一元模型在词单纯形上找到一个单一的点，并假定文集中的所有单词来自相应的分布。潜变量模型考虑词单纯形上的k个点，并根据这些点构成子单形体，我们称之为主题单纯形。请注意，主题单纯形上的任何一点也是单词单纯形上的一个点。不同的潜在变量模型以不同的方式使用主题单纯形来生成文档。

• 混合一元模型假设，对于每个文档，词单纯形中的k个点（即，主题单纯形的那些角中的一个）中的一个一旦随机选择后，文档的所有单词都从对应于那一点的分布中获取。

• pLSI模型假定训练文档的每个单词来自随机选择的主题。这些主题本身来自于文档在主题上的特征分布，也就是主题单纯形上的一个角点。每个文件有一个这样的分布，训练文档集因此定义了关于主题单纯形的经验分布。

• LDA假定观察到的（训练集）和未看到的（验证集）文档中的每个词都是由随机选择的主题生成的，该主题是从具有一个随机选择参数的分布中抽取的。从主题单纯形的平滑分布中，每个文档对此参数进行一次采样。

这些差异在图4中突出显示。

我们描述了使用LDA背后的动机，并说明了其与其他潜在主题模型相比的概念优势。在本节中，我们将注意力转向LDA下的推理和参数估计。

为了使用LDA我们需要解决的关键推理问题是计算给定文档的隐藏变量的后验分布：

不幸的是，这种分布通常难以计算。实际上，为了规范化分布，我们将忽视隐藏变量并根据模型参数重写方程（3）：

这是一个由于在潜在主题的总和中θ和β之间的耦合，而难以处理的函数（Dickey，1983）。Dickey表示这个函数是在Dirichlet分布的特定扩展下的期望，可以用特殊的超几何函数表示。它在贝叶斯环境中可用于删除（或审查，censored 暂时不明白怎么翻译）离散数据，以表示θ的后验（在该设置中，θ是随机参数）（Dickey等，1987）。

尽管后验分布对于精确推断是难以处理的，但是对于LDA可以考虑各种各样的近似推理算法，包括拉普拉斯近似，变分近似和马尔可夫链蒙特卡罗（Jordan，1999）。在本节中，我们描述了一个简单的基于凸性的变分算法，用于推断LDA，并讨论了第8节中的一些替代方案。

基于凸性的变分推理的基本思想是利用Jensen不等式来获得对数似然的可调下界（Jordan et al。，1999）。本质上，人们考虑一系列下界，它们由一组变分参数索引。变分参数由优化程序选择，该程序试图找到最可能的下限。

获得易处理的下界族的简单方法是考虑原始图形模型的简单修改，原始图形模型中一些边和节点已被移除。特别考虑图5（左）中所示的LDA模型。 θ和β之间的有问题的耦合是由于θ，z和w之间的边界而产生的。通过丢弃这些边和w节点，并赋予所得到的简化图形模型以及自由变分参数，我们获得了潜在变量的一个分布族。这个分布族以下面这个变分分布为特征：

已经指定了简化的概率分布族，下一步是建立一个确定变分参数γ和Φ的值的优化问题。正如我们在附录A中所示，找到对数似然的紧密下界的期望直接转化为以下优化问题：

因此，通过最小化变分分布和真实后验p（θ, z | w,α,β）之间的KullbackLeibler（KL）发散来找到变分参数的优化值。这种最小化可以通过迭代定点方法实现。特别是，我们在附录A3中表明，通过计算KL散度的导数并将它们设置为零，我们得到以下一对更新方程：

最近有新的项目做，没时间翻译啦，以后有时间再填坑，此处省略3000字

Topic Model （LDA）认为一个离散数据集合（如文档集合，集合，为行文方便，本文统统以文档集合作为描述对象，其他的数据集合只需换掉对应的术语即可）是由隐含在数据集合背后的topic set 生成的，这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档，先抽取一个topics proportion \theta；然后对于这个文档中的每一个词的位置 w_i, LDA 先从\theta中选择一个topic，然后再从这个topic对应的词分布中选择一个词去填充；按照上述步骤直到整个文档集合产生完毕。上述是LDA生成一个文档集合过程的简要介绍，下面我会把目前出现的topic models进行分门别类。我认为topic models主要可以分为四大类：1）无监督的、无层次结构的topic model；2）无监督的、层次结构的topic model；3）有监督的、无层次结构的topic model；4）有监督的、层次结构的topic model。对于1）主要有： PLSA, LDA, Correlated Topic Model, PAM，Concept Topic Model等
对于2）主要有： HLDA， HDP，HPAM等
对于3）主要有： S-LDA, Disc-LDA, MM-LDA, Author-Model, Labeled LDA, PLDA 等等
对于4）主要有： hLLDA, HSLDA 以上模型对应的文章名字，用google直接搜索即可得到，这里就不列出。很多人都在或者想使用已有的Topic Model，当然最理想的应该是我们自己设计适合我们问题的topic model来解决问题。然而这是很难的一个问题，一方面我们需要较为合理地设计适合问题的模型；另外一方面还需要较为强的数学基础去为自己的模型做相关的数学推导，如参数学习和推理。在这里，就我自己的经验，总结了一下topic model设计中的一些设计原则：A 在topic model的设计中，非常关键的一点是怎么看待topic，下面是一些总结： 1) 把topic看为一个词的分布，这是最基本的；如LDA等模型
2) 不仅把topic看做是一个词的分布，而且topic还可以是一堆topic的分布，即建立了topic之间的层次关系；如HPAM模型等
3) 把topic对应于标签，即一个topic有对应的一个标签，这样就可以建立有监督的topic model；如labeled LDA模型等
B 另外，在topic model中建立有监督模型的方法大概有两类：一类是生成式的；一类是判别式的对第一类，主要是把标签看为了一个topic，从而建立一个概率模型，用数据去训练得到参数，然后去应用；如labeled LDA, HLLDA等
2) 人工指定存在某种层次关系，然后去刻划之间的关系，如HPAM／PAM模型；
3) 在有监督的模型，这种层次关系已经存在（例如标签是一个层次结构），一种处理方法是认为这些标签都是topic，然后用概率模型去刻划变量之间的关系，如labeled LDA；至于如何进行推理和学习，常用的方法有EM算法，变分推断方法，Gibbs采样方法等，最主要还是最后两种方法，其中最简单的是Gibbs采样方法，最容易理解，然后是EM算法，最后变分推断方法是最难的，需要较多数学基础，由于内容多，这里只作简单的介绍，以后有时间再详细的写写。 EM算法：这个是PLSA论文里面用到的方法，在数学领域早已有之，它其实不是一个算法，而是一类问题进行近似计算的理论框架，主要的思想就是在Q函数的基础上进行迭代，最后逼近最优值，值得注意的是，最后的值不一定是全局最优值，很大可能是局部最优，这个算法相对较为简单，花上几个小时应该能够弄明白；变分推断方法：这个方法的基本思想是，如果一个分布很难求，我们就找一个容易求的近似分布来代替它，如何来刻划近似呢？就是用KL度量来衡量两个分布的近似程度，在得到容易求的近似分布之后，问题就变简单了。 Gibbs采样方法：这个算法的基本思想是：用来自一系列的容易采样的条件分布的样本来得到对应的全概率分布的样本，从而用这些样本来求取相应的统计量，这里的理论基础是这一系列的条件分布在经过一段时间采样后会达到平衡分布，这个平衡分布就是要求取的全概率分布。

学习AI的大致步骤：
（1）了解人工智能的一些背景知识；
（2）补充数学或编程知识；
（3）熟悉机器学习工具库；
（4）系统的学习AI知识；
（5）动手去做一些AI应用；
1 了解人工智能的背景知识
人工智能里面的概念很多，比如机器学习、深度学习、神经网络等等，使得初学者觉得人工智能很神秘，难以理解。刚开始学习的时候，知道这些名词大致的意思就行了，不用太深究，学习过一段时间，自然也就清楚这些概念具体代表什么了。
人工智能是交叉学科，其中数学和计算机编程是学习人工智能最重要的两个方面。这些在“知云AI专栏”之前的文章“认识人工智能”，也为大家介绍过，没阅读过的同学可以去看一下。
下图为人工智能学习的一般路线：
2补充数学或编程知识
对于已经毕业的工程师来说，在系统学习AI之前，一般要补充一些数学或者编程方面的知识。如果你的数学和编程比较好，那么学习人工智能会轻松很多。
很多同学一提到数学就害怕，不过，学习人工智能，数学可以说是绕不过去的。在入门的阶段并不需要太高深的数学，主要是高等数学、线性代数和概率论，也就是说，大一大二学的数学知识已经是完全够用了。如果想要从事机器学习工程师的工作，或者搞人工智能的研究，那么应该多去学习数学知识，数学好将会是工作中的一大优势。
Python是在机器学习领域非常受欢迎，可以说是使用最多的一门编程语言，因此Python编程也是需要掌握的。在众多的编程语言中，Python是比较容易学习和使用的编程语言，学好Python也会受益很多。
3 熟悉机器学习工具库
现在人们实现人工智能，主要是基于一些机器学习的工具库的，比如TensorFlow、PyTorch等等。
在这里推荐大家学习PyTorch。PyTorch非常的受欢迎，是容易使用的机器学习工具库，有人这样评价PyTorch“也说不出来怎么好，但是使用起来就是很舒服”。
刚开始学习人工智能的时候，可以先运行一下工具库官网的示例，比如MNIST手写体识别等。这样会对人工智能有一个感性的认识，消除最初的陌生感。然后可以看看里面的代码，你会发现，其实神经网络的程序并不复杂，但是会对神经网络的原理和训练有很多的疑问。这是一件好事，因为带着问题去学习，会更有成效。
4 系统的学习人工智能
这里的人工智能主要指机器学习，因为目前人工智能主要是通过机器学习的方式来实现的。
机器学习知识主要有三大块：
（1）传统机器学习算法，比如决策树、随机森林、SVM等，这些称作是传统机器学习算法，是相对于深度学习而言的。
（2）深度学习，指的就是深度神经网络，可以说是目前最重要最核心的人工智能知识。
（3）强化学习，源于控制论，有时候也翻译成增强学习。深度学习可以和强化学习相结合使用，形成深度强化学习。
在这里需要知道的是深度学习并不难学，对于一些工科的研究生，一般只需要几周就可以上手，并可以训练一些实际应用中的神经网络。但是想要对深入学习有深入理解不是容易的事情，一般需要几个月的时间。
传统机器学习算法的种类非常多，有些算法会有非常多的数学公式，比如SVM等。这些算法并不好学，因此可以先学习深度学习，然后再慢慢的补充这些传统算法。
强化学习是比较有难度的，一般需要持续学习两三个月，才能有所领悟。
5 动手去做一些AI应用
学习过几周的深度学习之后，就可以动手尝试去做一些AI应用了，比如图像识别，风格迁移，文本诗词生成等等。边实践边学习效果会好很多，也会逐渐的加深对神经网络的理解。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/13377821.html

最大似然估计单调增怎么办

发表评论

评论列表（0条）