COCA语料库是如何建设的

COCA语料库是如何建设的,第1张

语料库建设过程包括规划阶段、需求分析阶段、数据库框架设计、语料收集、语料导入、双语句子对齐、双语句子分词、语料校对。

语料库的总体设计和框架设计是语料库研究和创建的第一步,决定着今后语料库研究和应用,是和研究需要和目的紧密相关的。在通过分析研究需求明确建库目的后,要设计语料库的规模和语料收集范围,在对语料进行收集和加工整理过程中要系统地整理,清理杂志,去除多余的无用信息,统一格式和存放方式。

简单的说,coca就是把1990-2012年美国最有代表性的报纸,杂志,小说,学术,口语(口语可能是用的电视剧或者脱口秀之类的节目转录的)汇集起来,每部分各占1/5,生成4.5亿单词量语料库。 这款单词书收录了其中最常用的前6000单词,对初学者或针对性练习口语的同学会有一定帮助性O(∩_∩)O~~ PS:由于有部分单词有一词多义区分,因此前5000单词里有部分单词重合,由于单词书不允许有重复类单词,以及部分单词扇贝无法显示,所以这份单词书大概会不满6000个单词哦

1.英国国家语料库(BNC)

网站地址:

http://www.natcorp.ox.ac.uk/

英国国家语料库(British National Corpus)是目前世界上非常有代表性的当代英语语料库之一,由英国牛津出版社、朗文出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立。以来源广泛的书面语和口语为样本,呈现了20世纪后期以来的英式英语。其中词容量超过一亿,书面语占90%,口语占10%。

BNC包含了各个年龄段、各个社会阶层的语言,覆盖英国语言的方方面面。整个语料库包含4054篇文本取样,每篇抽样文本的长度不超过45000词。

2.美国当代英语语料库(COCA)

网站地址:

https://www.english-corpora.org/coca/

美国当代英语语料库,简称COCA,是目前最大的免费英语语料库,它由包含 5.2 亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。从 1990 年至 2015 年间语料库以每年增加两千万词的速度进行扩充,以保证语料库内容的时效性。因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。

3.美国国家语料库(ANC)

网站地址:

http://www.anc.org/

美国国家语料库(American National Corpus)记录了20世纪90年代以来,2200万美式英语的口语和书面语词汇。它是目前规模最大的关于美式英语使用现状的语料库,也极大地促进了语料库语言学的发展。

4.柯林斯英语语料库(BOE)

网站地址:

http://www.collinslanguage.com/wordbanks/

柯林斯语料库为目前世界三大著名语料库之一,该语料库(The Bank of English)为英国伯明翰大学与Harper Collins出版社合作建立的COBUILD语料库的一部分,目前固定在4.5亿词的规模,可以在线检索。

柯林斯英语语料库是从20世纪80年代开始在John Sinclair教授指导下建立的,主要应用与词典编撰的一个大规模语料库。目前Haper Collins出版社已根据该语料库编撰出版了多本非常有影响的英语词典。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6919894.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-30
下一篇 2023-03-30

发表评论

登录后才能评论

评论列表(0条)

保存