怎样建立语料库

怎样建立语料库,第1张

首先要明确建立的是单语语料库还是双语语料库,因为用到的建库软件和方法不一样,单语语料库的建立过程相对简单一些。

1、单语语料库

(1)准备单语语料,将语料都转换成TXT格式,建议按一定规律给各个文档命名

(2)下载并安装AntConC软件,界面如下

(3)将准备好的文档全部导入软件,然后就可以在AntConc里检索语料了。具体使用方法可以自行百度。

2、双语语料库

(1)语料准备

准备英汉对照的双语文档。可以是两个文档,其中一个英文,一个中文;也可以是英中上下对照或左右对照的单文档。无论是双文档还是单文档,都要注意原文与译文需要严格对照,这是后续软件识别的重要基础。

(2)语料对齐

业内有几种主流的语料对齐工具,我个人用的最多的是Tmxmall在线对齐。

例如,英中文档的对齐效果如下,将对齐好的文档导出,存为tmx格式。

(3)在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可。

附:关于原语料来源,一是自己翻译积累,二是权威网站获取,优质的原语料是优质语料库的前提。如果觉得自己做语料库耗时间,也可以到Tmxmall语料商城上看看别人上传的各类语料库,和其他译员交易已经建好的语料库。

本文介绍了一个面向专利文献翻译的、实用的汉英机器翻译系统,包括系统的总体设计、系统中使用的主要翻译技术等。 随着我国对知识产权认识的不断提高以及国际交流的迫切需要,传统的由专利翻译人员进行手工翻译的方式已经不能满足目前急剧增长的专利文献翻译需求,一定程度上阻碍了我国专利技术的推广和交流。机器自动翻译和辅助翻译正是解决这一问题的有效途径。近年来机器翻译技术取得了很大的突破,特别是统计机器翻译技术的发展,使得翻译质量有了很大的提高,为专利文献翻译提供了新的有力的手段。

专利文献翻译的特点

相对于普通文本的翻译来说,专利文献翻译具有以下特点:

● 涉及的专业领域多。专利文献具有很强的领域特性,直接利用现有的通用翻译软件很难得到理想的翻译结果。不过专利文献所属的领域可以根据国际专利分类号划分,相对比较清楚。同时,专利翻译经过多年的积累,比较容易获得特定领域的双语平行语料库(Parallel Corpus),这对机器翻译的语料收集和语料的领域划分提供了方便。

● 使用的专业术语和法律术语多。专利文献中包含大量的专业术语和法律术语,因此对译员的综合素质要求很高。相应的,专利翻译所需支付的报酬也非常高。举例来说,在国外将本国语言译成外文所支付的翻译费大约在每100个源词30~50美元。对一些比较罕见的语种,翻译服务的价格还会更高。因此利用自动翻译或辅助翻译解决专业术语和法律术语的翻译问题,可以大大降低专利翻译的成本。

● 翻译的语言种类多。由于专利文献具有一定的国别特性,因此专利文献往往需要实现不同语言之间的翻译。如果每种语言翻译方向都建立一个翻译系统则需要大量的开发成本。因此,使用语言无关性好的翻译技术是比较合理的选择。

● 文献形式规范、语言严谨。专利文献具有一定的法律文件特性,因此相对于新闻或口语翻译,文本的格式比较固定,用语也较为规范。专利文献中经常包含一些固定句型,即俗称的“句套子”,如“本发明的目的是X”,“权力要求N所述的X,其特征是Y”,其中X、Y可以是任意词语或句子,N是任意数词组合。这些句型模板适合机器的自动翻译。

通过分析专利文献的上述特点可以看出,对于形式比较规范、领域比较确定的专利翻译而言,使用机器翻译方法是有可能取得较好的翻译效果的。特别是最近快速发展的统计机器翻译技术,具有语言无关性好、领域可移植性好、知识获取方便、开发周期短等特点,非常适合用于构建专利文献翻译系统。

中科院计算所多语言交互技术实验室在机器翻译方面有着多年的研究经验,近年来在统计机器翻译方面的研究取得了很好的成绩。而北京东方灵盾科技有限公司对专利文献翻译有巨大需求,希望借助于自动翻译软件进一步提高翻译质量和翻译效率。受东方灵盾科技有限公司委托,计算所研究人员利用多语言交互实验室已经积累的统计机器翻译技术,结合专利文献翻译的特点,设计并实现了一个特定领域的汉英专利文献翻译系统。该系统目前的翻译领域为传统中药专利文献。由于采用了以统计为主的机器翻译技术,该系统可以很容易地移植到其他技术领域的专利翻译。

系统总体设计

为了方便大规模、多用户、并发执行的任务需求,本系统采用了服务器/客户端的网络服务模式,并采用多线程调度。系统的物理结构和逻辑流程如下:

1物理结构

汉英专利文献机器翻译系统的物理结构由两部分组成,包括:

● 翻译引擎服务器: 负责提供翻译服务,管理翻译资源。

● 客户端: 负责向用户呈现翻译结果,提供辅助翻译工具,将用户请求提交给服务器。

其中,服务器端主要放置翻译核心解码器及其所需的各种资源,如短语表、语言模型、模板库、词典、记忆库等。服务器端对这些资源进行统一管理,合理调度,同时服务器端负责各用户线程的调度与时间片分配,协调各用户提交的任务的优先级。

客户端又分为普通用户客户端和管理员用户客户端,不同的用户具有不同的权限。客户端提供方便的用户编辑、修改界面,同时提供给用户查看任务状态及服务器状态的功能,并能对服务器上的部分资源进行实时访问和修改,通过客户端,用户能够方便地批量上传文件进行翻译,并可以对返回的结果进行修改、重新提交翻译、批量导出翻译结果等。

服务器和客户端两部分均为可独立运行的进程,通过网络实现互相连接。

2 逻辑流程

系统逻辑结构是系统的整体业务框架,它描述了从数据输入,经过系统的内部处理得到期望结果,一直到最后输出的全过程(本系统的逻辑流程参考图见图1)。

具体来说,该系统的主要流程描述如下:

● 翻译服务: 负责翻译用户提交的句子或文本文件,输出翻译结果。翻译过程中会调用记忆库管理程序、词典管理程序、模板库管理程序,还要访问统计翻译模型库。

● 记忆库管理: 负责组织、管理记忆库,执行翻译实例的查询、添加、修改、删除、导出等 *** 作。当用户或翻译程序提交记忆库 *** 作请求后,记忆库管理模块访问记忆库,执行相应 *** 作并反馈结果。

● 词典管理: 负责组织、管理系统的各个词典,执行词典查询、添加、删除,批量导入和导出等 *** 作。当用户或翻译程序提交词典 *** 作请求后,词典管理模块访问系统词典库,执行相应 *** 作并反馈结果。

● 模板库管理: 负责组织、管理模板库,执行模板的查询、添加、修改,删除、导入、导出等 *** 作。当用户或翻译程序提交模板 *** 作请求后,模板管理模块访问模板库,执行相应 *** 作并反馈结果。

● 用户管理: 负责接收和执行用户的添加、删除、权限设定等 *** 作。

系统使用的主要翻译技术

该系统以统计翻译技术为主,融合了基于模板和基于记忆的翻译方法。

1 基于统计的翻译

统计机器翻译技术是目前国际上领先的机器翻译技术,克服了传统的基于规则翻译方法的主要弊端。在传统的基于规则的机器翻译方法中,翻译知识主要体现为词典和规则,而词典和规则主要依靠人类专家来编写。这种方法存在的主要问题是: 人类专家编写语言知识需要耗费大量的人力、物力和时间; 编写的知识很难全面覆盖真实翻译环境中面临的各种问题; 编写的语言知识在面临冲突时没有好的解决办法; 编写的语言知识不方便移植到不同的语种和领域。而在统计机器翻译中,所有的翻译知识全部来源于真实的双语平行语料库(parallel corpus),通过统计建模自动学习双语平行语料库中的翻译知识,因此克服了人类专家编写知识所面临的主要问题。总结起来统计机器翻译具有以下优点:

(1)易于移植到不同知识领域。只要获得新领域的双语平行语料库,就可以快速构造出适用于该领域的翻译系统。专利具有规范的领域划分体系,容易获得不同领域的专利翻译文本,因此统计机器翻译的这一特性特别适合用于专利翻译系统。

(2)易于移植到不同语言。统计机器翻译具有最大的语言无关性,仅需要很少的语言处理就可以构造出新语言对的翻译系统。这对于需要翻译成多种语言的专利来说大大减少了系统开发的代价。

(3)不需要人工撰写规则。所有翻译知识都是从双语平行语料库中自动获取的,因此大大降低了系统开发所需要的人力、物力和时间。统计翻译系统以统计模型为依据,在克服知识的冲突上也有比较合理的解决办法。

(4)系统的翻译质量能够随着训练数据的增加逐渐提高。随着专利翻译系统的使用,可以产生出越来越多的双语平行语料,这些语料可以进一步提高系统的翻译性能,使翻译质量在使用过程中不断得到提升。

在系统实现中研究人员采用了基于短语的统计机器翻译模型。该模型以短语作为基本翻译单元,所有短语翻译都是从双语语料库中自动获取的,同时获得的还有短语间的翻译概率,即翻译模型。此外,在训练阶段我们还获取了目标语言模型。在翻译过程中,翻译模块根据训练得到的翻译模型和语言模型,通过一定的解码算法选取概率最大的候选短语翻译组合作为整个句子的翻译结果。

2基于模板的翻译

基于模板的方法便于系统翻译具有相似模式的句子。在特定领域的专利文献中经常会包含一些固定的句型模式,例如,下面是传统中药领域几个专利的标题:

一种治疗风湿性心脏病的中药

一种治疗骨质增生的药袋

一种具有安神作用的无糖型中药组合物及其制备方法

一种具有减肥作用的膏状保健食品及其制备方法

可以看出,这些标题具有很大的句型相似性,可以用两个模板来概括: “一种治疗X的Y”和“一种具有X作用的Y及其制备方法”。在翻译系统中,一个完整的翻译模板包括“模板的源语言部分”和“模板的目标语言部分”,每部分又分为“模板的常量部分”和“模板的变量”部分。如以上两个模板在本翻译系统中表示如下:

一种治疗##1{…}的##2{…}

==>A ##2 for the treatment of ##1

一种具有##1{…}作用的##2{…}及其制备方法

==>A ##2 having ##1 effects and its preparation method

其中,“##N”为模板的变量部分,“N”用于区分不同变量在目标语言中的对应关系。在变量后面的“{…}”中,允许添加一些约束用来限制变量的匹配,如允许匹配的字符串的长度、匹配的模式(从句首匹配或从句尾匹配),以及变量中必须包含或不许包含的词等,以增加模板的表达能力。这里的模板既可以匹配整个句子,也允许匹配子句。

经过模板匹配后,上面几个例句被翻译成如下形式:

A 中药for the treatment of 风湿性心脏病

A 药袋for the treatment of 骨质增生

A 无糖型中药组合物 having 安神 effects and its preparation method

A 膏状保健食品 having 减肥 effects and its preparation method

可以看到,通过句型模板匹配,不仅可以很好地解决一些固定句型的翻译,同时也实现了一些长距离的句子调序,弥补了基于短语的统计翻译方法在长距离调序方面的不足。其次,经过模板匹配,模板中的一些常量已经被正确翻译了,统计翻译解码器只需要翻译剩下的短语片段,可以在一定程度上减轻统计解码器的负担。

本系统中定义的句型模板表达直观,便于语言工作人员理解,使用者可以根据待翻译文本句式的特点自己增加翻译模板,大大增加了系统的灵活度。

3基于记忆的翻译

用户在使用系统的过程中,可以把翻译正确的句子批量添加到记忆库中。在翻译过程中,如果记忆库中存在相同的句子,系统可以迅速搜索到它的正确翻译。当记忆库累积到一定规模后还可以增加到训练语料库中,进一步提高系统自动翻译的质量。

此外,本翻译系统还允许用户根据需要添加领域翻译词典和用户翻译词典,增强了用户对系统的调控能力。

图2以一段汉语文本的翻译为例,给出了系统的主要翻译流程。从中读者可以看出前述的各种翻译技术在整个翻译过程中的作用和所处的位置。对于一段输入的汉语文本,首先通过记忆库管理模块查找翻译记忆库,如果已经存在翻译结果,直接返回; 否则,系统调用词语切分工具进行汉语分词,并对分词的结果进行后处理,然后调用模板匹配模块对文本进行模板匹配,最后进行基于统计的翻译。统计翻译时需要调用统计翻译模型库,即翻译模型和语言模型。

系统实现的主要功能和性能

用户通过系统提供的用户界面可以方便地打开修改文件,并可以动态地添加翻译词条、翻译模板来指导翻译结果,同时对于修改中的生僻词可以即时地查找词典,对修改后的正确结果可以批量地添加到记忆库中。在修改的同时,用户仍然可以批量地提交翻译任务到服务器进行排队处理,待任务翻译完毕后会提示用户下载翻译结果文件。该系统的设计充分考虑到了多用户、多任务并发执行的情况,批量的翻译任务统一在服务器后台处理,不影响客户端的其他非翻译任务的执行。

1翻译质量

系统采用东方灵盾科技有限公司提供的传统中药领域的8万句对(平均句长31个词)进行训练。翻译质量的评价采用国际上通用的评价指标Bleu和通用的评价工具mteval-v11bpl。在训练语料之外的200句测试集上,在只有一个标准参考答案句子的情况下,系统自动翻译的Bleu值是03020。

这里和国际上最新的机器翻译水平做一比较: 在2006年国际著名的NIST机器翻译汉英翻译的大规模数据集合评测中,NIST子集(每个句子有4个参考答案译文)的最好成绩是03393, Gale子集(每个句子有1个参考答案译文)的最好成绩是01470。NIST机器翻译评测所使用的训练数据和测试数据都是来自新闻领域的,其训练数据的规模远远大于本专利翻译系统所使用的训练数据的规模。虽然两者不具有直接的可比性,但是可以看出,仅使用很少的训练语料,该系统在专利领域的翻译水平已经达到甚至超过国际上最好的新闻领域的翻译水平。

2翻译速度

翻译速度用每小时翻译多少字来衡量。目前本系统的翻译速度是14万字/小时。以每个专利题目平均20个字,每个专利文摘平均200个字计算,系统工作12小时可以完成84万个标题或8400个文摘的自动翻译。这种翻译速度完全可以满足日常辅助翻译工作的需要。

综上所述,该系统采用国际领先的统计翻译技术,结合基于模板和基于记忆的翻译方法,实现了一个实用的汉英专利文献翻译系统。该系统不仅可以实现自动翻译功能,还提供了方便的辅助翻译功能,用户可以对自动翻译的结果进行修改,同时可以动态地添加词典、模板来指导翻译,对修改后的正确结果还可以批量地添加到记忆库中。该系统目前已经进入试用阶段,其翻译质量和翻译速度已经满足用户的基本需求。

(本文作者付雷、黄瑾、何中军、刘群为中科院计算技术研究所硕士研究生)

获取关联标签的方法有很多,下面介绍几种常见的方法:

1统计学方法:通过统计词语出现的次数和关联词语出现的次数来计算出关联度,然后根据词语出现的频率来计算出标签。

2聚类分析:将词语聚类,然后根据每个聚类的词语来计算出标签。

3机器学习方法:通过利用机器学习技术来计算出每个词语的关联度,然后根据词语的关联度来计算出标签。

4语义分析:利用语义分析技术来分析词语的语义,然后根据词语的语义来计算出标签。

5自然语言处理:利用自然语言处理技术来处理句子,然后根据句子的内容来计算出标签。

以上就是关于怎样建立语料库全部的内容,包括:怎样建立语料库、专利文献的检索工具(系统) 能自动翻译专利文献的翻译系统、怎么根据一个词获取其关联的标签等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/9812143.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-02
下一篇 2023-05-02

发表评论

登录后才能评论

评论列表(0条)

保存