怎样创建语料库?

怎样创建语料库?,第1张

首先要明确建立的是单语语料库还是双语语料库,因为用到的建库软件和方法不一样,单语语料库的建立过程相对简单一些。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料。

⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。

如果想要查找微博语料,以下几种方法:

1、使用搜索引擎:在百度、谷歌等搜索引擎中搜索相关的微博语料关键词,例如“微博语料库”、“微博数据集”、“微博爬虫”等,可以找到一些网站或工具,这些网站或工具提供微博相关的数据集或爬虫工具,可以通过这些工具来获取微博语料。

2、使用第三方平台:有一些第三方平台或应用程序可以提供微博语料,例如微博自带的数据中心、微博热搜榜等等。可以在这些平台或应用程序中查找需要的微博语料。

3、自行爬取:也可以使用自己编写的爬虫程序来获取微博语料。不过需要注意的是,微博有一些反爬虫的机制,需要遵守爬虫的相关规定和法律法规,避免侵犯他人的隐私权或其他权益。

传统的偏误分析 (error analysis)是跟对比分析联系在一起的,可服务于教学。如,通过偏误分析来排列教学顺序,弥补教材的不足等。做法是收集常见错误并进行分类,但没有心理学理论的指导。随着学习研究的深入,人们发现偏误不仅跟母语干扰有关,还跟目的语规则泛化相连。它还成为中介语研究、习得顺序研究中重要的组成部分。

一、偏误分析的程序

以下以语法偏误研究为例,讨论偏误分析具体步骤。

(一)语料收集与选择

偏误应是学习者的真实语料(书面/口头)。信误收集,可分为开放式和聚焦式两类。

1. 开放式语料收集

指没有具体目标的偏误收集。研究者可随时随地收集各类偏误。来源可以是各类作业,谈话,甜译文本,翻译影视节日等。收集过程中要进行节选工作,挑选出最有价值的偏误点。

2.聚焦式语料收集

指确定偏误点之后的语料收集。语料收集可分为两大类4小类。

(1)横向 (cross-sectional) 与纵向 (longitude-sectional)横向指研究者收集学习者

某一特定阶段出现的偏误。级向指研究者收集学习者较长时间出现的偏误。横向、纵向两种方法各有千秋。横向方法虽然是短时间的,但可以收集较多学习者的偏误。纵向方法虽然是长时间的,但只能收集较少学习者的偏误。

(2)自然与非自然 自然法指通过谈话或作文来收集偏误。非自然法指通过语法练习和测试米收集偏误。前者(尤其是自由谈话)收集的语料比较自然、真实,学习者更关注表达内容,偏误频率比较高。后者收集的语料不够自然、真实:学习者更关注表达形式,偏误频率没有那么高。但研究者最想要的某一类或某几类偏误,在自然法收集的语料中比例不高:而在专门设计的语法练习、测试中却比较多。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/7959314.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-12
下一篇 2023-04-12

发表评论

登录后才能评论

评论列表(0条)

保存