如何建立自己的语料库

如何建立自己的语料库,第1张

基本上没有办法建立相应的语料,优质的原语料是优质语料库的前提。

动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,中国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢)。

扩展资料:

语料库的分类:

1、是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];

2、是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;

3、是双语语料库的设计、采集、编码和管理问题。比较著名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言研究

指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。

参考资料来源:百度百科-语料库

我是用Tmxmall在线对齐网页链接来做的,直接在百度里搜这几个关键字就行。先把你手里的双语文档导入到在线对齐工具里。要是原文和译文是分成两个文档存的,就选双文档对齐模式;如果是放在一个文档里的,就选单文档对齐模式。但是单文档对齐模式要求原文和译文是上下对照的。导进去之后,先进行段落上的调整,把原文和译文栏的段落数调整成一致。然后按工具栏上的“对齐”按钮,Tmxmall可以自动把段落切割成句子,非常省事。我原来用别的对齐软件做的时候,需要人工把句子拆开,眼睛都要看花了,用Tmxmall在线对齐就觉得特别省事。然后再将原文和译文栏的句子数量调整成一致,检查下有没有错误,去掉空格、段落数字这些会影响之后记忆库检索或没什么翻译参考价值的内容。确保没问题之后,就可以导出了,按任务栏的“导出”按钮就行。有两种导出格式:tmx和xlsx。一般做翻译记忆库都是用tmx格式的。你把这个tmx格式的文件导进建好的翻译记忆库里,就可以用了。或者你可以在Tmxmall上自己建个翻译记忆库,把做好的tmx文件导进去,然后安装他们的记忆库插件,可以直接在Trados和memoQ里使用。Tmxmall的工具栏里还有个“术语提取”功能,可以根据频次来初步筛选术语,导出的格式是xlsx的。然后你把这个xlsx格式的文档再导进他们的在线对齐编辑器里,选单文档对齐模式,再导出,选tmx格式,就可以得到tmx格式的术语文档了,然后你把这个tmx格式的术语文档导进建好的空的术语库里就行。Tmxmall也有术语库插件,具体用法和记忆库插件差不多,也可用在CAT软件里使用,很方便。具体 *** 作方法你可以登陆他们网站的“下载中心”看,有使用说明的。希望帮助你解决了问题。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12044045.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存