1:.2、自然语言理解的层次性:
从计算机处理的角度, 对自然语言的研究和处理, 一般划分为如下四个层次名词解释:第一层次是语音和文字, 即基本语言信号的构成; 第二层次是语法和句法 (合称 “语法” ), 即语言基本运用单位的构成和组合的形式规律;第三层次是语义, 即语言所要表达的概念结构; 第四层次是语用, 即语言与语言使用环境的相互作用。 相应地, 语言的分析和理解过程也应当是一个层次化的过程。 许多语言学家把这一过程分为四个层次: 语音分析、 语法分析、 语义分析、语用分析。其中, 语法分析又可分为词法分析和句法分析。语音分析是根据音位规则, 从语音中区分出一个个独立的音素, 再根据音位形态规则找出一个个音节及其对应的词素或词。 词法分析的主要目的是找出词汇的各个词素, 从中获得语言学信息。 需要说明的是, 在汉语中找出词素容易, 汉语分析难在词的切分。 句法分析是对句子和短语的结构进行分析。 句法分析的方法有很多, 格语法、 扩充转移网络和功能语法等。分析的目的就是找出词、 短语等的相互关系以及各自在句子中的作用等, 并以一种层次结构来加以表达。 这种层次结构可以是从属关系、直接成分关系和语法功能关系。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。 语用分析, 就是对语言符号与语用符号使用者之间联系的研究分析。
2:、自然语言理解的发展状况:
1956年以前,人们主要进行自然语言处理的基础性研究作。 1948年Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机,同时又把“熵 ” (Entropy)的概念引用到语言处理中。 而Kleene在同一时期研究了有限自动机和正则表达式。1956年, Chomsky又提出了上下文无关语法。这些工作导致了基于规则和基于概率两种不同的自然语言处理方法的诞生, 使得该领域的研究分成了采用规则方法的符号派 (Symbolic)和采用概率方法的随机派(Stochastic)两大阵营,进而引发了数十年有关这两种方法孰优孰劣的争执。1956年,人工智能诞生以后, 自然语言处理迅速融入了人工智能的研究中。 随机派学者在这一时期利用贝叶斯方法等统计学原理取得了一定的进步; 而以Chomsky为代表的符号派也进行了形式语言理论、生成句法和形式逻辑系统的研究。
由于这一时期, 多数学者注重研究推理和逻辑问题, 只有少数学者在研究统计方法和神经网络, 所以符号派的势头明显强于随机派的势头。 1967年美国心理学家Neisser提出了认知心理学, 从而把自然语言处理与人类的认知联系起来。70年代初, 由于自然语言处理研究中的一些问题未能在短时间内得到解决, 而新的问题又不断地涌现, 许多人因此丧失了信心, 自然语言处理的研究进入了低谷时期。尽管如此, 一些发达国家的学者依旧地研究着。 基于隐马尔可夫模型 (Hidden Markov Model, HMM)的统计方法和话语分析(Discourse Analysis)在这一时期取得了重大进展。80年代, 在人们对于过去的工作反思之后, 有限状态模型和经验主义的研究方法开始复苏。90年代以后, 随着计算机的速度和存储量大幅增加, 自然语言处理的物质基础大幅改善, 语音和语言处理的商品化开发成为可能; 同时,网络技术的发展和1994年Internet商业化使得基于自然语言的信息检索和信息抽取的需求变得更加突出。自然语言处理的应用面不再局限于机器翻译、 语音控制等早期研究领域了。从90年代末到21世纪初,人们逐渐认识到,仅用基于规则的方法或仅用基于统计的方法都是无法成功进行自然语言处理的。基于统计、 基于实例和基于规则的语料库技术在这一时期开始蓬勃发展, 各种处理技术开始融合, 自然语言处理的研究又开始兴旺起来。
3:、自然语言理解所面临的问题:
目前, 自然语言理解研究已经取得了令人瞩目的成绩,在某些方面, 有的研究成果已达到了实用化的程度, 比如根据数据库里的信息回答问题或处理事务, 按照自然语言的命令做一些简单的事情等等。 但自然语言理解并未取得根本性的突破。文献[5]甚至认为“整个自然语言理解获得成功的例子, 不过是解决了一个极为微小的积木世界的问题”。要使计算机达到人的理解力,目前在技术上还面临着艰巨的挑战。首先,自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如,但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。 传统的语言学是在没有计算机参与的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变得在计算机上可 *** 作, 绝不是那么简单, 也不能那么模糊。 其次, 自然语言的各个层次上都含有巨大的不确定性。 在语音和文字层次上, 有一字多音、 一音多字的问题; 在词法和句法层次上, 有词类词性、词边界、句法结构的不确定性问题; 在语义和语用层次上,也有大量的因种种原因造成的内涵、外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义一般不能通过发生歧义的语言单位自身获得解决, 而必须借助于更大的语言单位乃至非语言的环境、 背景因素和常识来解决。 人类有很强的依靠整体消除局部不确定性的能力和常识推理能力, 使计算机获得同样强大的能力, 还有很长的路要走。 自然语言不是一成不变的, 它在社会生活中发展, 在 *** 不同语言和同一语言的不同变体的人们之间相互影响变化。一个词、一个说法可能在一夜之间突然流行起来,特殊的人群结构变化会导致新的语言或新的语言变体(如方言)的出现。 这就要求理解自然语言的计算机程序要具有对外界语言环境的应变能力。最后, 自然语言是人们交流思想的工具。 既然交流的是思想, 那思想本身在计算机里的组织结构就显得格外重要。在人工智能里,这就是“知识表示”的问题。 可以说, 在知识表示问题上的突破, 对于自然语言理解的进展将产生决定性的影响。
解决基于中文的自然语言理解问题,计算机必须获取句法知识,语义知识和语用知识。单纯从语法层面,不结合语义、 语用,自然语言理解很难提高。语义研究是理论和实践突破的关键。肯定地在语义空间把握语言和建设语言系统。这样将打破语种,领域的局限,进入更宏观的语义理解进而实施构建之工程。
4:、前景展望和研究意义:
国内外关于自然语言处理与理解方法的研究, 长期专注于“语法”层次的研究。20世纪末期以来, 人们认识到单纯在语法层次上的研究不能解决问题, 开始进到了 “语义” 的层次, 最好的例子就是互联网络这几年的研究正在从WWW走向语义网Semantic Web。然而,自然语言是语法、语义、语
用三者的“有机统一体” , 只从语法、语义两个层次上研究也不能很满意地解决问题。 语用研究的空缺已经日益阻碍了自然语言处理的发展。只有语用、 语义和语法信息的研究都成熟了, 才能真正通过分析获得自然语言所表达的信息, 达到与人类交流对话的水平。 因此, 未来的趋势是要充分研究和利用自然语言的语法、 语义和语用信息。 实际上, 走向语法—语义—语用三位一体的层次是必然的出路, 语用作为自然语言中体现效用价值的因素不可能因为困难总被回避,现在已经到了必须要面对的时候了。
人类已经迈入21世纪, 计算机和互联网的广泛应用昭示着信息时代的到来。 计算机可处理的自然语言文本数量空前增长, 面向海量信息的文本挖掘、 信息提取、 跨语言信息处理、 人机交互等应用需求急速增长, 自然语言处理研究必将对我们的生活产生深远的影响。
随着我国现代化建设的发展, 信息处理技术的自动化愈来愈显得紧迫。 人类历史上用语言文字形式记载和流传的知识占到知识总量的80%以上。据统计, 目前计算机的应用范围,用于数学计算的仅占10%, 用于过程控制的不到5%, 其余 85%以上都是用于语言文字和信息处理的, 并且随着计算机的普及和性能的提高、价格的降低, 这一趋势还在增大。 语言信息处理的技术水平和每年所处理的信息总量已经成为衡量一个国家现代化技术水平的重要标志之一。 因此自然语言(汉语)处理已成为一个引人注目的重要学科, 是我国实现信息化和现代化的必经之路。 可以这样说, 汉语自然语言理解作为中文信息自动化处理的关键技术, 每提高一步给我国的科学技术、文化教育、经济建设、国家安全所带来的效益, 将是无法用金钱的数额来计算的。 反之, 如果落后了,不管是落后于国际水平还是落后于现实需求,后果都是严重的。
5:、结束语:
在自然语言理解研究的实践中, 研究者虽然认识到计算机的 “自然语言” 是一种人工语言, 但仍希望电脑能达到人脑对自然语言理解的水平, 其中 “知识表示” 问题就典型地反映出这种矛盾状况。 人们至今不能确定, 计算机究竟应该储存多少常识和专门知识, 才能达到令人满意的自然语言理解水平。 机器自然语言理解本质界定的不明确性是出现上述情况的一个重要原因, 实际上, 这也是目前存在颇多分歧的问题之一。因此, 要真正达到机器完全理解自然语言还有很长一段路程。
就自然语言理解的现状和笔者的研究体会在此强调如下两个方面:既要进行语言的语义的彻底揭示,也要保护人类语言的鲜活。前者不够深入则不能良好地进行计算机实现,很多技术瓶颈难于实质性地突破;后者如果把握不好,将出现语言精华的流失,自然语言把握能力的衰退。当计算机到达具有篇章语义的处理能力时,自然语言反而失去活力,不自然了。亦即上下求索的两个方面都需要把握好,否则文理的对峙将不能得到消融反而会加深,这将是巨大的遗憾。相反作为理解语言的两极其平复融合将能更深刻的相互解释和支持,实现人类对语言的完备认识。我们正致力于这个良好的平衡的达成。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)