自然语言处理中的N-Gram模型详解_安全

混合式自然语言处理进路的问题在于如何将基于规则的自然语言处理与基于规则的语言处理很好地融合在一起。答案是正确的。

自然语言处理中基于数据驱动的方法主要包括传统的机器学习以及当前广受关注的深度学习。传统机器学习可以理解为手工特征+机器学习模型，而深度学习是从数据中自动学习特征，进而提高机器学习模型的性能。

深度学习成功依赖3个条件，即算法模型，计算资源和足够的数据。大数据时代的来临，GPU的发展，尤其是神经网络相关工程理论的改进，使得深度学习在自然语言处理领域发挥着巨大的价值。其中，神经网络结构非常适合于逐层进行数据的抽象表达，也就是我们平常说深度学习，即深度神经网络。

对于工程师而言，妄议不同流派的口舌之争是没有意义的。我们需要解决现实研究领域中的问题，包括文本分类与聚类、文章标签与摘要提取、文本审核与舆情分析、机器翻译、阅读理解、问答系统与聊天机器人、搜索引擎、知识图谱、自然语言生成等等。无论是知识图谱，还是深度神经网络，都表现出了在不同领域的强大能力。

混合式自然语言处理是一种结合多种技术来处理自然语言的方法，主要包括以下几个方面：

1、语法分析：通过自然语言处理算法分析句子中的语法结构，包括词性分析、句法分析等，从而更好地理解句子的意思。

2、语义分析：通过自然语言处理算法分析句子中的语义，包括实体识别、关系抽取等，从而更好地理解句子的含义。

3、机器学习：通过机器学习技术，构建自然语言处理模型，不断优化和拓展模型，提高自然语言处理的准确性和效率。

4、规则引擎：通过规则引擎技术，构建知识库和规则库，对自然语言进行逻辑推理和推断，从而更好地理解句子的逻辑结构和含义。

5、模型融合：通过将多个自然语言处理模型的结果进行融合，可以进一步提高自然语言处理的准确性和鲁棒性。

混合式自然语言处理通过结合多种技术和方法，可以更全面、更深入地理解自然语言，从而实现更精准、更高效的自然语言处理应用。

这是我在留学期间选修的课程：natura language process。这篇文章主要是为了大致的梳理这门课上的知识点，方便日后复习。因此，语言处理的主体对象是English。

简单来说，语言模型就是一个对于不同单词出现概率的统计。
然而，对于英语来说，每个单词可能有不同的时态和单复数等形态变化。因此，在做统计前，需要先对原始数据进行预处理和归一化。

分割句子后，每句话应该作为一个元素单独存储。

一般来说，常用的是 unigram, bigram 和trigram, 即以1-3 个词作为一个对象来统计。n 越大，统计结果也越稀疏。一个七八个词的组合重复出现的概率，显然远低于2-3个词的组合。另一方面，根据马尔科夫链，一个单词的出现，可以认为仅跟前一个词有关系，所以也没有太大必要追求过大的n。
n-gram 是一个重要的基础概念，它所提供的概率分析可以做到很多事情，例如机器翻译“请给我打电话”：P(“please call me”) > P("please call I ")。又比如拼写纠正：基于概率， “its 5pm now” → 纠正为 “it's 5pm now”

没有比较就没有伤害。对于语言模型的评估，也需要有一个比较的对象。因此，要用两种方法建立不同的语言模型（当然也可以对比前人的工作成果）。显然，任意给一个测试用的句子，如果在某一模型中的出现概率都比较大，那么这个模型显然更好。具体来说，评估方法有两种：

首个单词问题 ：对于一个基于bigram或trigram的模型，在计算一个句子的perplexity时，前1或2个单词需要不能直接得到，依赖于句子开头的标识符。也即是说，在训练 n-gram 模型时，对于每个句子，分别在开头和结尾填充n-1个<s>。从而保证在计算perplexity的时候能够正确地从第一个单词开始计算。这也是为什么前面 sentence segmentation 的时候要将句子区别存储的原因。

显然，无论用来生成LM的corpus多么庞大，总会有些单词没有被包含其中（称为out of vocabulary， OOV）。解决方法有两种，一是实现设定一个固定的字典，在训练LM过程中，所有不在字典中的单词统一转换成 token <UNK>，另一种是将LM中出现频率小于n次的单词当作 <UNK>，剩下的作为字典。根据字典对测试数据做相同 *** 作，就可以避免OOV的问题。
在处理完OOV问题后，还有一个问题需要处理：所有单词都在字典中，但是单词的组合并没有在LM中出现这一情况。此时就需要对基于bigram或trigram的LM进行smooth *** 作，规避这一问题。Smoothing过程有1点需要注意，就是smooth之后的模型，其所有概率加起来，必须仍然为1。常见的smoothing方法有：

特别的，工程上最适合的应该是 stupid backoff algorithm, 这一算法并不确保整体概率为1。仅仅是在回退时乘以系数04计算。即如果trigram没有找到，就使用04×P(bigram)，如果bigram还是没找到，就是要 04×04×P(unigram)。由于OOV问题已解决，所以对于任意一个词，必然能计算出其概率。

相关阅读： Large Language Models in Machine Translation

nlp算法是自然语言处理。

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。

它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

nlp算法发展：

在一般情况下，用户可能不熟悉机器语言，所以自然语言处理技术可以帮助这样的用户使用自然语言和机器交流。从建模的角度看，为了方便计算机处理，自然语言可以被定义为一组规则或符号的集合，我们组合集合中的符号来传递各种信息。

这些年，NLP研究取得了长足的进步，逐渐发展成为一门独立的学科，从自然语言的角度出发，NLP基本可以分为两个部分：自然语言处理以及自然语言生成，演化为理解和生成文本的任务。

NLP 是什么？

NLP 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成：自然语言理解和自然语言生成。

自然语言理解方向，主要目标是帮助机器更好理解人的语言，包括基础的词法、句法等语义理解，以及需求、篇章、情感层面的高层理解。

自然语言生成方向，主要目标是帮助机器生成人能够理解的语言，比如文本生成、自动文摘等。
NLP 技术基于大数据、知识图谱、机器学习、语言学等技术和资源，并可以形成机器翻译、深度问答、对话系统的具体应用系统，进而服务于各类实际业务和产品。

NLP在金融方面

金融行业因其与数据的高度相关性，成为人工智能最先应用的行业之一，而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分，正在快速进入金融领域，并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。

事件(Event )：在特定时间、特定地点发生的事情。主题(Topic)：也称为话题，指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject)：涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是，国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点：也可称为热点主题。热点和主题的概念比较接近，但有所区别。

1 词干提取

什么是词干提取？词干提取是将词语去除变化或衍生形式，转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干，哪怕词干并非词典的词目。

2 词形还原

什么是词形还原？词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题，即词语在句中的语义，词语对相邻语句的语义等。

3 词向量化什么是词向量化？词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用，因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化，一个词语或者一段短语可以用一个定维的向量表示，例如向量的长度可以为100。

4 词性标注

什么是词性标注？简单来说，词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。

5 命名实体消歧

什么是命名实体消岐？命名实体消岐是对句子中的提到的实体识别的过程。例如，对句子“Apple earned a revenue of 200 Billion USD in 2016”，命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说，命名实体要求有一个实体知识库，能够将句子中提到的实体和知识库联系起来。

6 命名实体识别

体识别是识别一个句子中有特定意义的实体并将其区分为人名，机构名，日期，地名，时间等类别的任务。

7 情感分析

什么是情感分析？情感分析是一种广泛的主观分析，它使用自然语言处理技术来识别客户评论的语义情感，语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。

8 语义文本相似度

什么是语义文本相似度分析？语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意，相似性与相关性是不同的。

9语言识别

什么是语言识别？语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。

10 文本摘要

什么是文本摘要？文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。

11评论观点抽取

自动分析评论关注点和评论观点，并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取，包括美食、酒店、汽车、景点等，可帮助商家进行产品分析，辅助用户进行消费决策。

11DNN 语言模型

语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。
12依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系)，并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。
1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类，分词等很多功能，国外使用者居多，类似中文的 jieba 处理库

2、文本处理流程

大致将文本处理流程分为以下几个步骤：

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各个流程的具体介绍

Normalization

第一步通常要做就是Normalization。在英文中，所有句子第一个单词的首字母一般是大写，有的单词也会全部字母都大写用于表示强调和区分风格，这样更易于人类理解表达的意思。

Tokenization

Token是"符号"的高级表达，一般值具有某种意义，无法再拆分的符号。在英文自然语言处理中，Tokens通常是单独的词，因此Tokenization就是将每个句子拆分为一系列的词。

Stop Word

Stop Word 是无含义的词，例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义，单停止词是频率非常多的词。为了减少我们要处理的词汇量，从而降低后续程序的复杂度，需要清除停止词。

Named Entity

Named Entity 一般是名词短语，又来指代某些特定对象、人、或地点可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前，必须先进行 Tokenization 并进行 PoS Tagging。

Stemming and Lemmatization

为了进一步简化文本数据，我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。

3、Word2vec

Word2vec是一种有效创建词嵌入的方法，它自2013年以来就一直存在。但除了作为词嵌入的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

### 四、NLP前沿研究方向与算法

1、MultiBERT
2、XLNet
3、bert 模型

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT提出之后，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点：

使用了Transformer作为算法的主要框架，Trabsformer能更彻底的捕捉语句中的双向关系；

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标；

使用更强大的机器训练更大规模的数据，使BERT的结果达到了全新的高度，并且Google开源了BERT模型，用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中，我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

模型结构：由于模型的构成元素Transformer已经解析过，就不多说了，BERT模型的结构如下图最左：

对比OpenAI GPT(Generative pre-trained transformer)，BERT是双向的Transformer block连接；就像单向rnn和双向rnn的区别，直觉上来讲效果会好一些。

优点： BERT是截至2018年10月的最新state of the art模型，通过预训练和精调横扫了11项NLP任务，这首先就是最大的优点了。而且它还用的是Transformer，也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型，它捕捉到的是真正意义上的bidirectional context信息。

缺点： MLM预训练时的mask问题

[MASK]标记在实际预测中不会出现，训练时用过多[MASK]影响模型表现

每个batch只有15%的token被预测，所以BERT收敛得比left-to-right模型要慢（它们会预测每个token）
BERT火得一塌糊涂不是没有原因的：

使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向，并再一次炒火了《Attention is All you Need》这篇论文；

11个NLP任务的精度大幅提升足以震惊整个深度学习领域；

无私的开源了多种语言的源码和模型，具有非常高的商业价值。

迁移学习又一次胜利，而且这次是在NLP领域的大胜，狂胜。

BERT算法还有很大的优化空间，例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力，而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成，论文中说的训练需要在64块TPU芯片上训练4天完成，而一块TPU的速度约是目前主流GPU的7-8倍。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/13380145.html

自然语言处理中的N-Gram模型详解

发表评论

评论列表（0条）