汉字情报检索是什么?

汉字情报检索是什么?,第1张

汉字情报检索是什么?

[拼音]:Hanzi qingbao jiansuo

[外文]:Chinese characters information retrieval

指以汉字表明的信息作为存取对象的情报检索,与中文情报检索含义相同,同时泛指含有汉字(如日语等)文字的情报检索。在计算机内部,无论中文或西文都以代码形式表现,汉字检索和西文检索,检索原理和机制并无区别,同一情报检索系统完全可用于兼顾英汉乃至多种文字的检索。汉字检索和西文检索,技术上的主要差别是汉字本身造成的,主要涉及汉字处理技术问题。从这一意义上说,汉字情报检索,是情报检索和汉字处理两者的结合,技术条件上除与西文情报检索完全相同以外,还必须具备汉字处理所需的输入输出设备和相应的软件。

汉字的特性给情报检索带来一系列新问题。主要有:

汉字编码

西文检索以拉丁字母和数字为存取对象,总数有限,用一个字节长度足以表示全部字符集,而且编码简单,实现标准化容易,输入输出设备均以一个字节为单位进行设计。汉字情报检索不仅要处理西文字符集,而且要处理数目庞大的汉字,至少需要两个字节表示一个特定汉字。大字符集的特点,给汉字编码、标准化带来了困难,而且大大增加了输入输出设备的复杂性。在计算机内部,处理对象不管汉字或西文都以代码表示,为了保证两者的兼容,在输入输出时必须严加区分,以便在输入时产生正确的汉字内码和西文内码,而在输出时将相应的内码转换成汉字或西文字符。汉字数量大,文字属性多,给汉字编码标准化带来困难。据不完全统计,中国已出现 400多种汉字编码方案,已装入汉字处理系统的输入方法也有十几种。汉字编码难于标准化,增加了设备和用户的负担,影响汉字处理的应用普及。

汉字字符集和内码

中国1981年5 月颁布的《信息交换用汉字编码字符集基本集》 (GB2312-80),汉字数量不够用,许多单位自己造字,代码不统一,影响信息交换。西文和汉字的排序方法不同,西文一般按字母顺序排列,而汉字排序则有笔画、偏旁部首、拼音等不同要求。该字符集参照汉字使用频度分为二级,第一级按汉语拼音字母顺序排列,第二级按部首排列。现在汉字的内码基本是将交换码直接作为内码使用,或者加上标识位或标识字节后作为内码使用,汉字本身存在的缺陷在内码无法得到改善,而且增加了排序原则的不一致性,字的相对位置无法表示等问题,并且直接影响与单字节的西文并行处理。亟待增补汉字标准字符集,并且改进内码方案。

汉语切分

情报检索需要以词语作为处理对象,西文以两个空格之间定义为一个单词,计算机自动抽词比较简单,而汉字词语之间不用空格区分,汉字自动切分比西文抽词困难和复杂得多。汉语词语的自动切分和关键词语的自动组成,是汉字情报检索必不可缺的技术要求。近年,许多专家、学者提出了多种方案设想,还有人作了实验,取得了可喜的实验性成果,但汉语词语自动切分的解决,离实用要求仍有相当距离。

汉字检索

汉字情报检索大都停留在汉字数据库管理系统的水平上,不能处理可变长记录和重复字段,同时在汉语主题词语管理、汉语词语的位置查找、针对汉语词语结构的检索方法等方面,尚未研制成功专用的汉字情报检索软件。

随着中国汉字处理技术的进步,80年代以来汉字情报检索开始逐步发展,已建立总数达40~50万篇中文文献数据库。许多单位在微型机上实现汉字情报检索。有的单位把引进的西文情报检索系统改造成为中西文兼容的汉字情报检索系统,例如机电部机械工业科技情报研究所在HP3000计算机上改造 MINISIS系统,中国科学技术情报研究所和联合国教科文组织联合发展 CDS/ISIS2.3版微机汉字情报检索系统等。北京文献服务处研制了取名为BDSIRS大型联机中西文兼容情报检索系统和 MBDSIRS 微机汉字情报检索系统。不少专业情报中心已建立创建数据库、汉字情报检索和计算机编排检索刊物等功能配套的综合性汉字情报处理系统。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/bake/4735854.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-08
下一篇 2022-11-08

发表评论

登录后才能评论

评论列表(0条)

保存