自然语言处理基础 - NLP_软件运维

什么是自然语言处理

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自然语言处理有四大类常见的任务

什么是命名实体识别

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。丛陪基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

什么是词性标注

词性标注 (pos tagging) 是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。

什么是文本分类

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

GLUE benchmark

General Language Understanding Evaluation benchmark，通用语言理解评估基准，用于测试模型在广泛自然语言理解任务中的鲁棒性。

LM：Language Model

语言模型，一串词序列的概率分布，通过概率模型来表示文本语义。

语言模型有什么作用？通过语言模型，可以量化地衡量一段文本存在的可能性。对于一段长度为n的文本，文本里每个单词都有上文预测该单词的过程，所有单词的概辩郑埋率乘积便可以用来评估文本。在实践中，如果文本很长，P(wi|context(wi))的估算会很困难，因此有了简化版：N元模型。在N元模型中，通过对当前词的前N个词进行计算来估算该词的条件概率。

重要文献与资料

https://segmentfault.com/a/1190000015460828

https://segmentfault.com/a/1190000015284996

https://segmentfault.com/a/1190000015285996

我们介绍词的向量表征，也称为 word embedding 。词向量是自然语言处理中常见的一个 *** 作，是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。

在这些互联网服务里，我们经常要比较两个词或者两段文本之间的相关性。为了做这样的比较，我们往往先要把词表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。在这种方式里，每个词被表示成一个实数向量（one-hot vector），其长度为字典大小，每个维度对应一个字典里的每个词，除了这个词对应维度上的值是1，其他元素携蚂都是0。

One-hot vector虽然自然，但是用处有限。比如，在互联网广告系统里，如果用户输入的query是“母亲节”，而有一个广告的关键词是“康乃馨”。虽然按照常理，我们知道这两个词之间是有联系的——母亲节通常应该送给母亲一束康乃馨；但是这两个词对应的one-hot vectors之间的距离度量，无论是欧氏距离还是余弦相似度(cosine similarity)，由于其向量正交，都认为这两个词毫无相关性。得出这种与我们相悖的结论的根本原因是：每个词本身的信息量都太小。所以，仅仅给定两个词，不足以让我们准确判别它们是否相关。要想精确计算相关性，我们还需要更多的信息——从大量数据里通过机器学习方法归纳出来的知识。

在机器学习领域里，各种“知识”被各种模型表示，词向量模型(word embedding model)就是其中的一类。通过词向量模型可将一个 one-hot vector映射到一个维度更低的实数向量（embedding vector），如embedding(母亲节)=[0.3,4.2,−1.5,...],embedding(康乃馨)=[0.2,5.6,−2.3,...]。在这个映射到的实数向量表示中，希望两个语义（或用法）上相似的词对应的词向量“更像”，这样如“母亲节”和“康乃馨”的对应词向量的余弦相似度就不再为零了。

词向量模型可以是概率模型、共生矩阵(co-occurrence matrix)模型或神经元网络模型。在用神经网络求词向量之前，传统做法是统计一个词语的共生矩阵X。

X是一个|V|×|V| 大小的矩阵，Xij表示在所有语料中，词汇表V(vocabulary)中第i个词和第j个词同时出现的词数，|V|为词汇表的大小。对X做矩阵分解（如奇异值分解），得到的U即视为所有词的词向量：

但这样的传统做法有很多问题：

基于神经网络的模型不需要计算和存储一个在全语料上统计产生的大表，而是通过学习语义信息得到词向量，因此能很好地解决以上问题。

神经网络

当词向量训练好后，我们可以用数据可视化算法t-SNE[ 4 ]画出词语特征在二维上的投影（如下图所示）。从图中可以看出，语义相关的词语（如a, the, thesebig, huge）在投影上距离很近，语意无关的词（如say, businessdecision, japan）在投影上的距离很远。

另一方面，我们知道两个向量的余弦值在[−1,1]的区间内：两个完全相同的向量余弦值为1, 两个相互垂直的向量之间余弦值为0，两个方向完全相反的向量余弦值为-1，即相关性和余弦值大小成正比。因此我们还可以计算两个词向量的余弦相似度。

模型概览

语言模型

在介绍词向量模型之前，我们先来引入一个概念：语言模型。语言模型旨在为语句的联合概率函数P(w1,...,wT)建模, 其中wi表示句子中的第i个词。语言模型的目标是，希望模型对有意义的句子赋予大概率，对没意义的句子赋予小概率。这样的模型可以应用于很多领域，如机器翻译、语音识别、信息检索、词性标注、手写识别等，它们都希望能得到一个连续序列的概率。以信息检索为例，当你在搜索“how long is a football bame”时（bame是一个医学名词），搜索引擎会提示你是否希望搜索"how long is a football game", 这是因为根据语言模型计算出“how long is a football bame”的概率很低，而与bame近似的，可能引起错误的词中，game会使该句生成的概率最大。

对语言模型的目标概率P(w1,...,wT)，如果假设文本中每个词都是相互独立的，则整句话的联合概率可以表示为其中所有词语条件概率的乘积，即：

然而我们知道语句中的每个词出现的概率都与其前面的词紧密相关, 所以实际上通常用条件概率表示语言模型：

N-gram neural model

在计算语言学中，n-gram是一种重要的文本表示方法，表示一个文本中连续的n个项。基于具体的应用场景，每一项可以是一个字母、单词或者音节。 n-gram模型也是统计语言模型中的一种重要方法，用n-gram训练语言模型时，一般用每个n-gram的历史n-1个词语组成的内容来预测第n个词。

Yoshua Bengio等科学家就于2003年在著名论文 Neural Probabilistic Language Models [ 1 ] 中介绍如何学习一个神经元网络表示的词向量模型。文中的神经概率语言模型（Neural Network Language Model，NNLM）通过一个线性映射和一个非线性隐层连接，同时学习了语言模型和词向量，即通过学习大量语料得到词语的向量表达，通过这些向量得到整个句子的概率。因所有的词语都用一个低维向量来表示，用这种方法学习语言模型可以克服维度灾难（curse of dimensionality）。注意：由于“神经概率语言模型”说法较为泛泛，我们在这里不用其NNLM的本名，考虑到其具体做法，本文中称该模型为N-gram neural model。

在上文中已经讲到用条件概率建模语言模型，即一句话中第t个词的概率和该句话的前t−1个词相关。可实际上越远的词语其实对该词的影响越小，那么如果考虑一个n-gram, 每个词都只受其前面n-1个词的影响，则有：

给定一些真实语料，这些语料中都是有意义的句子，N-gram模型的优化目标则是最大化目标函数:

其中f(wt,wt−1,...,wt−n+1)表示根据历史n-1个词得到当前词wt的条件概率，R(θ)表示参数正则项。

Continuous Bag-of-Words model(CBOW)

CBOW模型通过一个词的上下文（各N个词）预测当前词。当N=2时，模型如下图所示：

具体来说，不考虑上下文的词语输入顺序，CBOW是用上下文词语的词向量的均值来预测当前词。

其中xt为第t个词的词向量，分类分数（score）向量 z=U∗context，最终的分类y采用softmax，损失函数采用多类分类交叉熵。

Skip-gram model

CBOW的好处是对上下文词语的分布在词向量上进行了平滑，去掉了噪声，因此在小数据集上很有效。而Skip-gram的方法中，用一个词预测其上下文，得到了当前词上下文的很多样本，因此可用于更大的数据集。

如上图所示，Skip-gram模型的具体做法是，将一个词的词向量映射到2n个词的词向量（2n表示当前输入词的前后各n个词），然后分别通过softmax得到这2n个词的分类损失值之和。

我们介绍了词向量、语言模型和词向量的关系、以及如何通过训练神经网络模型获得词向量。在信息检索中，我们可以根据向量间的余弦夹角，来判断query和文档关键词这二者间的相关性。在句法分析和语义分析中，训练好的词向量可以用来初始化模型，以得到更好的效果。在文档分类中，有了词向量之后，可以用聚类的方法将文档中同义词进行分组，也可以用 N-gram 来预测下一个词。希望大家在本章后能够自行运用词向量进行相关领域的研究。

参考： https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides/simple_case/word2vec/README.cn.html

NLP是人工智能的一个子领域，作为AI产品经理，我们至少要知道NLP是什么，它能做什么事，这样我们就能获得一种解决问题的思维，将遇到的问题和方法连接起来。接下来我从“NLP是什么、能做什么、目前遇到的难题”三个方面来简单介绍下NLP。

一．什么是NLP

NLP，中文叫自然语言处理，简单来说，是一门让计算机理解、分析以及生成自然语言的学科，大概的研究过程是：研制出可以表示语言能力的模型——提出各种方法来不断提高语言模型的能力——根据语言模型来设计各种应用系统——不断地完善语言模型。

NLP理解自然语言目前有两种处理方式：

1.基于规则来理解自然语言，即通过制定一些系列的规则来设计一个程序，然后通过这个程序来解决自然语言问题。输入是规则，输出是程序；

2.基于统计机器学习来理解自然语言，即用大量的数据通过机器学习算法来训练一个模型，然后通过这个模型来解决自然语言问题。输入是数据和想要的结果，输出是模型。

接下来简单介绍NLP常见的任务或应用。

二．NLP能做什么：

1.分词

中文可以分为字、词、短语、句子、段落、文档这几个层面，如果要表达一个意思，很多时候通过一个字是无法表达的一个含义的，至少一个词才能更好表达一个含义，所以一般情况是以“词”为基本单位，用“词”组合来表示“短语、、句子、段落、文档”，至于计算机的输入是短语或句子或段落还是文档就要看具体的场景。由于中文不像英文那样词与词之间用空格隔开，计算机无法用区分一个文本有哪些词，所以要进行分词。目前分词常用的方法有两种：

（1）基于规则：Heuristic（启发式）、关键字表

（2）基于机器学习/统计方法：HMM（隐马尔科夫模型）、CRF（条件随机场）

（注：在这里就不具体介绍方法的原理和实现过程了，大家感兴趣，可以自行百度了解）

现状分词这项技术非常成熟了，分词的准确率已经达到了可用的程度，也有很多第三方的库供我们使用，比如jieba，所以一般在实际运用中我们会采用“jieba+自定义词典”的方式进行分词。

2.词编码

现在把“我喜欢你”这个文本通过分词分成“我”、“喜欢”、“你”三个词，此时把这三词作为计算机的输入，计算机是无法理解的，所以我们把这些词转换成计算机能理解的方式，即词编码，现在普遍是将词表示为词向量，来作为机器学习的输入和表示空间。目前有两种表示空间：

（1）离散表示：

A.One-hot表示

假设我们的语料拆祥库是：

我喜欢你你对我有感觉吗

词典{“我”：1，“颤晌喜欢”：2，“你”:3,“对“：4，“有”：5，“感觉”：6，“吗”：7} 。一共有七个维度。

所以用One-hot表示：

“我” ：[1, 0, 0, 0, 0, 0, 0]

“喜欢”：[0, 1, 0, 0, 0, 0, 0]

········

“吗” ：[0, 0, 0, 0, 0, 0, 1]

即一个词用一个维度表示

B.bag of word：即将所有词的向量直接加和作为一个文档的向量。

所以“我喜欢你”就表示为：“[1, 1, 1, 0, 0, 0, 0]”。

C. Bi-gram和N-gram（语言模型）：考虑了词的顺序，用词组合表示一个词向量。

这三种方式背后的思想是：不同的词都代表着不同的维度，即一个“单位”（词或词组合等）为一个维度。

（2）分布式表示：word2vec，表示一个共现矩阵向量。其背后的思想是“一个词可以用其附近的词来表示”。

离散式或分布式的表示空间都有它们各自的优缺点，感兴趣的读者可以自行查资料了解，在这里不阐述了。这里有一个问题，当语料库茄御锋越大时，包含的词就越多，那词向量的维度就越大，这样在空间储存和计算量都会指数增大，所以工程师在处理词向量时，一般都会进行降维，降维就意味着部分信息会丢失，从而影响最终的效果，所以作为产品经理，跟进项目开发时，也需要了解工程师降维的合理性。

3.自动文摘

自动文摘是指在原始文本中自动摘要出关键的文本或知识。为什么需要自动文摘？有两个主要的原因：（1）信息过载，我们需要在大量的文本中抽出最有用、最有价值的文本；（2）人工摘要的成本非常高。目前自动文摘有两种解决思路：第一种是extractive（抽取式），从原始文本中找到一些关键的句子，组成一篇摘要；另一种方式是abstractive（摘要式），计算机先理解原始文本的内容，再用自己的意思将其表达出来。自动文摘技术目前在新闻领域运用的最广，在信息过载的时代，用该技术帮助用户用最短的时间了解最多、最有价值的新闻。此外，如何在非结构的数据中提取结构化的知识也将是问答机器人的一大方向。

4.实体识别

实体识别是指在一个文本中，识别出具体特定类别的实体，例如人名、地名、数值、专有名词等。它在信息检索、自动问答、知识图谱等领域运用的比较多。实体识别的目的就是告诉计算机这个词是属于某类实体，有助于识别出用户意图。比如百度的知识图谱：

“周星驰多大了”识别出的实体是“周星驰”（明星实体），关系是“年龄”，搜索系统可以知道用户提问的是某个明星的年龄，然后结合数据“周星驰出生时间 1962年6月22日”以及当前日期来推算出周星驰的年龄，并把结果直接把这个结果显示给用户，而不是显示候选答案的链接。

此外，NLP常见的任务还有：主题识别、机器翻译、文本分类、文本生成、情感分析、关键字提取、文本相似度等，以后有时间再为大家做简单介绍。

三．NLP目前存在的难点

1.语言不规范，灵活性高

自然语言并不规范，虽然可以找一些基本规则，但是自然语言太灵活了，同一个意思可以用多种方式来表达，不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。

2.错别字

在处理文本时，我们会发现有大量的错别字，怎么样让计算机理解这些错别字想表达的真正含义，也是NLP的一大难点

3.新词

我们处在互联网高速发展的时代，网上每天都会产生大量的新词，我们如何快速地发现这些新词，并让计算机理解也是NLP的难点

4.用词向量来表示词依然存在不足

上述，我们讲到，我们是通过词向量来让计算机理解词，但是词向量所表示的空间，它是离散，而不是连续，比如表示一些正面的词：好，很好，棒，厉害等，在“好”到“很好”的词向量空间中，你是不能找到一些词，从“好”连续到“很好”，所以它是离散、不连续的，不连续最大的问题就是不可导.计算机是处理可导的函数非常容易，不可导的话，计算量就上来了。当然现在也有一些算法是计算词向量做了连续近似化，但这肯定伴随着信息的损失。总之，词向量并不是最好的表示词的方式，需要一种更好的数学语言来表示词，当然可能我们人类的自然语言本身就是不连续的，或者人类无法创建出“连续”的自然语言。

小结：通过上述的内容，我们已经大概知道了“NLP是什么、能做什么以及目前存在的难题”。作为人工智能产品经理，了解NLP技术能够提高我们自己的技术理解力，在理解行业需求、推进项目开展都有非常大的帮助，其实这可以让我们获得是一种连接能力，将需求与工程师连接起来，将问题与解决方案连接起来。虽然NLP等人工智能技术存在很多不足，但我们需要调整好自己的心态，人工智能应用化才刚刚开始，必然是不够完美的，不要成为批判者，而是成为人工智能时代的推进者。

nt-sizf@�2W��

就目前而言，人工胡碧智能基本上是基于大数据。前段时间微软推出的“小冰”就是这样的产物。毫无疑问，数据库必须学习，算法更是重中之重。目前的人工智能确实不成熟，相关资料也很少，学习起来比较困难，而且单独搞也很难做好。如果只是想写下游戏AI，那就裤派举学习游戏编程。羡塌

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12540895.html

自然语言处理基础 - NLP

发表评论

评论列表（0条）