自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。
基本概念
• 自然语言处理既是一门技术也是一门学科。
• 自然语言指人类使用的语言,如汉语、英语等
• 语言是思维的载体,是人类交流的工具
• 语言的两种属性:文字和声音
• 人类历史上以文字形式记载和流传的知识占80%以上。
自然语言处理的定义:
"自然语言处理又称为自然语言理解,就是利用计算机为工具对人类特有的书面形式和又头形式的自然语言的信息进行各种类型处理和加工的技术。” —— 冯志伟《自然语言的计算机处理》
研究的基本问题
1. 语音学
语音学(PhoneTIcs)问题:研究词及其语音的关联
2. 形态学
形态学(Morphology)问题:研究词是如何由有意义的基本单位-词素(Morphemes)构词的。
词素是从词或者词干的直接成分的角度来确定的音义结合体。字和词素不是一一对应的:
一、有的汉字实际上代表不同的词素。如“副”这个字代表多种词素:“第二的、次级的”、“相配、相称”、某种计量单位。
二、同一词素可以由不同的汉字来表示。如:“来吧”中的“吧”可以由“罢”代替。三、有些汉字在某些场合属于词素,某些场合不是。如:“沙”在“泥沙”里面是词素,在“沙发”里面不代表意义。词素与词的关系是“词素的功能是构词词”。
词素构词有两种情况:
一、一个词素单独构词一个词。如:人、鱼、书、蜈蚣等。
二、两个或两个以上的词素构词一个词。如:人+民,机+器等。
3. 语法学
语法学(Syntax)问题:研究句子结构成分之间的相互关系和组成句子的序列。
为什么一句话可以这么说也可以那么说?
4. 语义学
语义学(SemenTIcs)问题:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。
下面的话说了什么?
(1)苹果不吃了
(2)这个人真牛
(3)火烧圆明园/火烧驴肉
5. 语用学
语用学(PragmaTIcs)问题:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。从狭义的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境。相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义。
在语用学中最基本的一个概念是语境,它是专门研究语言的理解和使用的学问,它研究在特定场景中的特定话语,研究如何通明朝这个朝代更过语境来理解和使用。
下面话为什么这样说?
(1)火,火!
(2)A:看看鱼怎么样了?
B:我刚才翻了一下。
研究的主要内容
1. 机器翻译
• 基于规则的机器翻译方法
认为翻译的过程是需要对源语言的分析和源语言意义的表示,然后再生成等价的标语言的过程。根据翻译过程的不同,规则方法可分为两种主要方法:基于转换的方法的翻译过程包括三个阶段:分析得到一种源语言的抽象表示;把源语言的抽象表示转换为目标语言的抽象表示 ;由目标语言的抽象表示生成目标语言。基于中间语言的方法在对源语言分析后产生的是中间语言,而目标语言的生成是直接由这种中间语言开始的。
• 基于实例的机器翻译
本质是“以翻译实例为基础,基于相似原理的机器翻译”,其利用的主要知识源是预处理过的双语语料和翻译词典。基于实例的翻译过程通常包括三步: 在翻译实例库中搜索匹配片段;确定相应的译文片段;重新组合译文片段以得到最终翻译。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)