怎样创建语料库?_软件运维

首先要明确建立的是单语语料库还是双语语料库，因为用到的建库软件和方法不一样，单语语料库的建立过程相对简单一些。

语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型：⑴异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料。

⑵同质的（Homogeneous）：只收集同一类内容的语料；⑶系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；⑷专用的（Specialized）：只收集用于某一特定用途的语料。

除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。

已经累积了大量各种类型的语料库，如：葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据（OpenSubtitles Corpus）、《圣经》双语语料库（"Bible" bilingual corpus）、Short messages service(SMS) corpus（短消息服务（SMS）语料）等。

如果想要查找微博语料，以下几种方法：

1、使用搜索引擎：在百度、谷歌等搜索引擎中搜索相关的微博语料关键词，例如“微博语料库”、“微博数据集”、“微博爬虫”等，可以找到一些网站或工具，这些网站或工具提供微博相关的数据集或爬虫工具，可以通过这些工具来获取微博语料。

2、使用第三方平台：有一些第三方平台或应用程序可以提供微博语料，例如微博自带的数据中心、微博热搜榜等等。可以在这些平台或应用程序中查找需要的微博语料。

3、自行爬取：也可以使用自己编写的爬虫程序来获取微博语料。不过需要注意的是，微博有一些反爬虫的机制，需要遵守爬虫的相关规定和法律法规，避免侵犯他人的隐私权或其他权益。

传统的偏误分析（error analysis）是跟对比分析联系在一起的，可服务于教学。如，通过偏误分析来排列教学顺序，弥补教材的不足等。做法是收集常见错误并进行分类，但没有心理学理论的指导。随着学习研究的深入，人们发现偏误不仅跟母语干扰有关，还跟目的语规则泛化相连。它还成为中介语研究、习得顺序研究中重要的组成部分。

一、偏误分析的程序

以下以语法偏误研究为例，讨论偏误分析具体步骤。

（一）语料收集与选择

偏误应是学习者的真实语料（书面/口头)。信误收集，可分为开放式和聚焦式两类。

1. 开放式语料收集

指没有具体目标的偏误收集。研究者可随时随地收集各类偏误。来源可以是各类作业，谈话，甜译文本，翻译影视节日等。收集过程中要进行节选工作，挑选出最有价值的偏误点。

2.聚焦式语料收集

指确定偏误点之后的语料收集。语料收集可分为两大类4小类。

(1）横向 (cross-sectional）与纵向 (longitude-sectional)横向指研究者收集学习者

某一特定阶段出现的偏误。级向指研究者收集学习者较长时间出现的偏误。横向、纵向两种方法各有千秋。横向方法虽然是短时间的，但可以收集较多学习者的偏误。纵向方法虽然是长时间的，但只能收集较少学习者的偏误。

（2）自然与非自然自然法指通过谈话或作文来收集偏误。非自然法指通过语法练习和测试米收集偏误。前者（尤其是自由谈话）收集的语料比较自然、真实，学习者更关注表达内容，偏误频率比较高。后者收集的语料不够自然、真实：学习者更关注表达形式，偏误频率没有那么高。但研究者最想要的某一类或某几类偏误，在自然法收集的语料中比例不高：而在专门设计的语法练习、测试中却比较多。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/7959314.html

怎样创建语料库?

发表评论

评论列表（0条）