数据库
data base
为满足某一部门中多个用户多种应用的需要,按照一定的数据模型在计算机系统中组织、存储和使用的互相联系的数据集合。
带有数据库的计算机系统,除具备一般的硬件、软件外,必须有用以存储大量数据的直接存取存储设备、管理并控制数据库的软件——数据库管理系统(DBMS)、管理数据库的人员——数据库管理员 (DBA)。这样的数据、硬件、软件和管理人员的总体构成数据库系统。数据库仅是数据库系统的一个组成部分。
数据库系统的功能和特征 数据库系统由文卷系统发展而来。与文卷系统相比,这种系统具有数据、体系和控制三个方面的主要特征。
数据特征 在文卷系统中虽然程序与数据之间可用存取方法进行转换,但文卷还是与应用程序对应的,即数据仍面向应用。每一应用各自建立自己的一组文卷。不同的应用若涉及相同的数据,则这些数据分别纳入各自的文卷之中。文卷的各种记录之间没有建立联系,因而数据冗余度大。增加新的应用,必须同时增加新的文卷。因此,文卷系统中的文卷是无结构的、不易扩充的信息集合。数据库则不仅描述数据本身,而且描述数据之间的联系。它的数据结构反映了某一部门的整体信息结构,数据冗余度小、易于扩充新的应用,因而是面向数据总体结构的信息集合,可为多个用户共享。
体系特征 一切数据都有逻辑和物理两个侧面。在数据库系统中,数据逻辑结构的描述称为逻辑模式。逻辑模式又分为描述全局逻辑结构的全局模式(简称模式)和描述某些应用所涉及的局部逻辑结构的子模式。数据物理结构的描述称为存储模式。这两种模式总称为数据库模式。
数据库系统中,用户根据子模式编制程序。子模式与模式模式与存储模式之间有软件进行映射。因此,程序与数据之间具有两级独立性:物理独立性和逻辑独立性。数据的存储模式改变,而模式可以不改变,因而不必改写应用程序,这称为物理独立性。模式改变时,子模式可能不改变,也就不必改写应用程序,这称为逻辑独立性。由于数据库系统具备比较高的程序与数据的独立性,可以使程序员在编制应用程序时集中精力考虑算法逻辑,不必过问物理细节,而且可以大大减少应用程序维护的工作量。
控制特征 数据库数据数量庞大,结构复杂,又为多个用户所共享。因此,必须由数据库管理系统在定义、建立、运行以及维护时进行统一管理和控制,以保证数据库数据的安全性、完整性和并发 *** 作的一致性。此外,还必须有数据库管理员专门负责对数据库的管理、控制监督和改进。
由于数据库系统具有上述特征,它的出现使信息系统的研制从围绕加工数据的程序为中心,转变到围绕共享的数据库来进行。这便于数据的集中管理,有利于应用程序的研制和维护。数据减少了冗余度和提高了相容性,从而提高了作出决策的相容性。因此,大型复杂的信息系统大多以数据库为核心,数据库系统在计算机应用中起着越来越重要的作用。
研究课题 数据库研究的课题,主要涉及三个领域。
数据库管理系统软件的研制 DBMS是数据库系统的基础。研制DBMS的基本目标,是扩大功能,提高性能和可用性,从而提高用户的生产率。70年代以来,研制的重点是探索关系数据库管理系统的设计,内容包括关系数据语言、查询优化、并发控制和系统性能等。另一类课题是对DBMS标准化的研究,即研究一个统一的DBMS体系结构的规范。
数据库设计 这是在计算机系统具有的数据库管理系统的基础上,按照应用要求以及计算机系统所提供的数据模型和功能,设计一个结构良好、使用方便、效率较高的,以数据库为核心的应用信息系统。这一领域主要的研究课题,是数据库设计方法学和设计工具的探索。例如,运用软件工程的方法和工具指导数据库设计;研究数据库设计各个阶段中完备的方法和工具;以关系数据库的规范化理论为指南进行数据库逻辑设计等。
数据库理论 主要研究关系数据库理论。关系数据库理论研究的意义,一方面在于它为数据库学科奠定了理论基础;另一方面它为数据库设计提供了判别标准,从而成为数据库设计的有力指南。研究的主要内容是关系的规范化理论。关系规范化理论已应用于数据库设计的各个阶段。
发展 数据库技术是计算机科学中发展最快的领域之一,新的领域越来越多。
分布式数据库系统 随着70年代后期分布计算机系统的发展,相应地研究成功分布式数据库系统。分布式数据库系统是一个在逻辑上完整,而在物理上分散在若干台互相连接的结点机上的数据库系统。它既具有分布性又具有数据库的综合性。这是数据库系统发展的一个重要方向。分布式数据库系统结构复杂,其中最复杂的是分布式数据库管理系统。
数据库机器 新的计算机系统的体系结构。它把由中央处理器包办的数据库 *** 作分散给一些局部的部件来执行,或转移到一个与主计算机相连的专用计算机去执行,以提高并行性。数据库机器的发展,包括智能控制器和存储器,专用处理机和数据库计算机。
数据库语义模型 数据库的数据模型基本上属于语法模型,语义体现很不完备,不能明显地含有现实世界的意义。因此,用户只能按照DBMS所提供的数据 *** 纵语言访问数据库。语义模型能准确地描述现实世界中某个部门的信息集合及其意义,使用户能基于对现实世界的认识或用类似于自然语言的形式来访问数据库。这方面的研究已发展为数据语义学。
数据库智能检索 数据库技术和人工智能相结合,根据数据库中的事实和知识进行推理,演绎出正确答案,这就是数据库的智能检索。这涉及到自然语言用户接口、逻辑演绎功能和数据库语义模型等问题,如70年代末所开始的知识库管理系统和演绎数据库的研究。
办公室自动化系统中的数据库 研究在办公室自动化系统中数据库技术的应用,其中主要研究对各种非格式化数据如图像、声音、正文的处理,以及面向端点用户的高级语言接口。
数据库系统
database systems
由数据库及其管理软件组成的系统。数据库系统是为适应数据处理的需要而发展起来的一种较为理想的数据处理的核心机构。计算机的高速处理能力和大容量存储器提供了实现数据管理自动化的条件。
数据库系统一般由4个部分组成:①数据库,即存储在磁带、磁盘、光盘或其他外存介质上、按一定结构组织在一起的相关数据的集合。②数据库管理系统(DBMS)。它是一组能完成描述、管理、维护数据库的程序系统。它按照一种公用的和可控制的方法完成插入新数据、修改和检索原有数据的 *** 作。③数据库管理员(DBA)。④用户和应用程序。对数据库系统的基本要求是:①能够保证数据的独立性。数据和程序相互独立有利于加快软件开发速度,节省开发费用。②冗余数据少,数据共享程度高。③系统的用户接口简单,用户容易掌握,使用方便。④能够确保系统运行可靠,出现故障时能迅速排除;能够保护数据不受非受权者访问或破坏;能够防止错误数据的产生,一旦产生也能及时发现。⑤有重新组织数据的能力,能改变数据的存储结构或数据存储位置,以适应用户 *** 作特性的变化,改善由于频繁插入、删除 *** 作造成的数据组织零乱和时空性能变坏的状况。⑥具有可修改性和可扩充性。⑦能够充分描述数据间的内在联系。
数据库计算机
database computer
实现数据库的存储、管理和控制的一种专用计算机系统。它能十分快速而有效地完成各种数据库 *** 作,并能适应大型数据库的管理。
由于微处理机技术和简约指令集计算机(RISC)技术的飞速发展,使高档微机和各种工作站(见计算机工作站)的价格越来越低,而处理能力和存储容量却越来越高。可以说,通用处理机在这方面的发展在较大程度上降低了人们对数据库机的进一步研究的积极性,使得数据库机的发展在一定程度上处于停顿状态。面对这种严峻形势,它的进一步发展必须解决成本太高和使用太专等问题,以争得用户。数据库机的未来发展概括起来大概有以下几方面:①充分利用大规模集成电路技术、并行处理和其他先进硬件技术,提高数据库机的性能/价格比。②研究新的数据库机体系结构和相应的并行 *** 作算法和软件,提高整机系统的性能,使它能适应一些特殊应用中对海量数据库进行管理的需求。③将它与人工智能技术结合,做出有一定智能的数据库机,使这种机器不但能对数据进行管理和控制,而且能支持对知识的加工和运用,从而在知识处理领域发挥作用。④充分利用分布数据库技术,发展面向通用硬件和软件的能在网络环境下使用的数据库机,提高数据库机的通用性。
知识库管理系统的作用主要有以下几点:
搜集和管理信息和数据:知识库管理系统可以搜集和管理大量的信息和数据,包括文本、、视频、音频等多种形式的数据,并对这些数据进行分类、归档、排列、搜索、标记和发布等处理。知识录入和处理:知识库管理系统可以支持人工和自动化两种方式的知识录入,可以通过HTML5多媒体编辑工具手动录入知识文本、、视频、音频等原始档案,也可以通过工具和规则批量导入知识原始档案或者元知识数据库,并在知识数据库基础上支持团队不同成员按照不同的权限配置对其进行协作加工与编辑演化知识。知识演化跟踪和管理:知识库管理系统可以对知识进行演化跟踪和管理,通过版本管理工具可以查看元知识历史修改记录与变更原因。知识库管理系统中的知识文档档案可以通过人工建立知识链接来建立关系,形成粗略的知识图谱结构。而更细一层的知识图谱结构可以在NLP自然语言处理工具的帮助下建立单词实体级的知识图谱结构。知识关系维护和构建:知识库管理系统可以帮助维护和构建知识之间的关系,通过关系维护和构建功能,可以将知识之间的关系形成知识图谱,从而更好地组织和管理知识。知识索引和搜索:知识库管理系统可以建立知识索引,通过对知识的关键词、时间、来源等信息进行分析,将相关的知识存储在索引数据库中,方便用户快速查找和搜索相关的知识。知识挖掘和推荐:知识库管理系统可以通过机器学习、人工智能等技术,对知识进行深度挖掘和分析,从而发现知识之间的关联和规律,并根据这些规律为用户提供个性化的推荐和展示。知识展示和发布:知识库管理系统可以将处理后的知识以各种形式展示和发布,包括文本、、视频、音频等多种形式,方便用户了解和使用知识。知识估值和交易:知识库管理系统可以对知识进行估值和交易,通过对知识的价值、稀缺性、市场需求等因素进行分析,为知识定价和交易提供参考和依据。知识消费和统计:知识库管理系统可以支持知识的消费和统计功能,可以对用户的知识消费行为、频率、偏好等信息进行分析,从而为企业提供更加精准的知识服务和营销策略。综上所述,知识库管理系统可以帮助企业更好地管理和组织知识,提高知识利用效率和价值,增强企业的竞争力和创新能力。
linked
data
按字面的意思是被连接起来的数据。Tim
berners-lee的一篇博客的介绍,从网络的发展上来看,“Net”或是“internet”是计算机直接通过网线形成的远距离通信网路,“Web”或是“world
wide
web”是计算机里的文件直接互联。而网络发展的下一步就是实现文件中的数据的直接互联,也就是所谓的“linked
data”。
Tim认为这就是他构想中的web
30中的基础环节之一。也就是说数据的直接互联能够让计算机“理解”文件中的语义。对于如何实现,不同的流派有提出过不同的方法。目前一种通用的做法简单来说是把网页文件中的每一个实体用元数据做标记(好理解的例子是一篇文章的“标题”部分用title标注,“作者”部分用author标注),然后通过建立RDF和ontology(RDF理解成一种主谓宾之类的句式关系模型就好,至于ontology我的理解是跨数据系统间的通用关系模型,可能理解的不对,不过不要试着去百度这个词,我试过。。)将不同的元数据标注下的实体的关系表现出来
(我真的不是学技术的,再细化解释不下去了)。
这对于构建“semantic
web”(即
语义网)甚至是现在非常热的“the
Internet
of
thing”
(即物联网)
有着重要的意义。这样又扯出了很多新的概念,比如语义网,比如物联网,不过这与题主的问题有点远,我下面用一个语义搜索的例子来稍微帮助下阐述。我们知道现在主流的搜索引擎都是关键字搜索引擎,这种引擎的实现思路在核心上可以说是受到早期的图书馆管理中的索引检索的启发,搜索引擎事先遍历,抓取网上的网页,将网页中的内容做为索引连同url等信息一并存入数据库中。
举个例子,在用户输入搜索语句,比如“苹果”时,因为机器无法判断这个“苹果”是指水果还是苹果公司,所以会将数据库中含有“苹果”两字的网页都返回给用户。如果输入的检索是一个句子,
比如“苹果手机”,现阶段的搜索引擎仍然无法判断“苹果手机”是特指苹果公司的手机,返回的结果里会有很大一部分是含有“苹果”,“手机”这样的关键词的网页(含有“苹果手机”这个关键词的网页一样会出现在结果里,并可能因为一些优化算法被集中靠前显示,这样看上去就好像搜索引擎知道你在检索“苹果手机”一样)。
当用户的检索变得复杂的时候,比如上面说的“苹果手机”
(其实还不算复杂,真正复杂的是:我的朋友中谁适合做我女朋友。。。),linked
data的作用就显现了。对,通过前面提到的元数据标注,RDF关系模型,机器能够了解当“苹果”和“手机”一齐出现的时候,很大程度上是指“苹果手机”。当连接的数据多了之后,就会形成巨大的一个知识图谱,现实中的例子就是google
的knowledge
graph,建议搬个梯子看下。如果我们在其中加入人的社会关系和她在社交网络中的分享,就可以对搜索结果做进一步的优化(判断自己和好友的兴趣,爱好并以此作为依据筛选结果等等),成功帮我找到一个女朋友。恩,这才是我写毕业论文的初衷,不过离题主的问题有点偏了。
总之,linked
data
是一种实现机器智能的基础手段,相比于传统知识库的一个优势是能够执行更精确智能的检索。欢迎讨论,补充和纠正。
、WordNet的特点
WordNet是一个词与词之间存在各种关系的词典,不同于传统词典和同义词词典,WordNet有如下三个特点:
(1)WordNet与一般字典的不同在于组织结构的不同,它是以同义词集合(Synset)作为基本的构建单位来组织的,用户可以在同义词集合中找到一个合适的词去表达一个已知的概念。而与传统词典类似的是它也给出了定义和例句。
如果说WordNet是一个数据库,那么Synset就是一条数据的主键,而每一条数据,代表的是一个词义。Synset在文件中的格式,上一篇已经介绍了,这次介绍一下python中显示的Synset。

图1Python中的Synset
由上图可见,Synset由三部分组成,第一部分是词义,第二部分是词性,第三部分是编号。

图2有关Synset的一些基本应用
图2是一些关于一条Synset的一些简单的应用,但是Wordnet的用法远不止于此,我将在后面用wordnetpy的代码直接进行介绍。
(2)WordNet不只是用同义词集合的方式罗列概念,而是把这些同义词集合用一定的关系类型关联起来的。其中有同义关系(synonymy)、反义关系(antonymy)、上下位关系(hypernymy/hyponymy)、整体和部分关系(meronymy)和继承关系(entailment)等。WordNet尽可能使词义之间的关系简单,使用起来方便。
WordNet的词汇结构包括九大类:上下位关系(动词、名词)、蕴含关系(动词)、相似关系(名词)、成员部分关系(名词)、物质部分关系(名词)、部件部分关系(名词)、致使关系(动词)、相关动词关系(动词)、属性关系(形容词)。
(3)在WordNet中,大多数的同义词集都有说明性的注释,但一个Synset不等于词典中的一个词条,因为一个Synset只包含一个注释,而在传统词典中的词条是多义词,会有多个解释。
所以说,“一个Synset等于的是一个词义”这一点必须反复强调。以一条词义为一条数据,是跨语言想要成立所必须的条件。
二、WordNet的缺点
我将WordNet的优点按下不表,而单独谈一谈它的缺点,因为它的优点显而易见。好比它以词义为中心的优点让我在做跨语言的项目时会首先想到它。然而优点会让我选择它,缺点也可能会让我不得不放弃它。必须承认,WordNet的一些缺点是致命的,下面就让我来列举一下。
1汉语词条太少
像我在上一篇中所说的,WordNet的英文词条共计:117659条,但中文对应词条却只有42312条。看起来所占比例足足有三分之一,但实际上英文的名词有:82115条,中文的名词则只有两万七千余条(当时统计的数据,具体数据我在撰写本文的时候忘记了,见谅),且不说一些专业名词没有解释、上海、伦敦这种城市名称也没有翻译,就连“***”、“普通话”这种中国人的常用词都没有。
2汉语词义存在错误
词条少还可以补充,不过更为可怕的是,有的词条不明所以,甚至根本是错误的翻译!
我们来举一个例子。

图3wordnet文件夹中datanoun文件中的一条Synset——00002137-n
如图三所示,这一条Synset有两个写法,分别是abstraction和abstract_entity,而示意是这样:
a general concept formed by extracting common features from specific examples
这句话的意思和第二个词的意思都非常明显,这个词的中文词义应该是:抽象实体
可是我们的cmn是怎么翻译的呢?

图4cmn文件夹下wn-data-cmntab文件中表示00002137-n的中文对应词
居然出现了“抽象派作品”!而众所周知,这个所谓的“抽象派作品”,只是abstraction的一个词义,而不是00002137-n这一词义的中文意思。
换句话说,这翻译是错的,它以一个单词作为主键进行翻译,而不是以一个词义进行翻译。
我不知道这种现象是个别存在还是偶然状况,一个以万条为单位的文本,我实在无力逐个排查,但是恐怕这一现象并不少见,这个cmn,极有可能是用某种已经存在的词典进行机翻的,而不是逐条对应词义翻译的。

图5abstraction在有道词典中的翻译
如果说连词条都是错误的,基于这个词典所做的工作是否还存在意义?
所以我初步准备在研究生期间,利用业余时间重新编写中文WordNet中的内容,战略放弃cmn(汉语开放词网)所提供的中文WordNet,顺便学习英语。
我将采用机翻+校对的方式,以词义为标准进行对译,最终实现所有词义都有对应多个汉语对译词的中文WordNet,我将它命名为Anlitong Chinese WordNet(acw)。
希望我们可以一起见证它的问世。
3网球问题
说了两个中文WordNet中存在的致命问题之后,我们再来讨论一下WordNet存在的结构性问题。
“网球问题”指怎样把racquet(网球拍)、ball(网球)和net(球网)之类具有情境联想关系的词汇概念联系起来、发现它们之间的语义和推理关系。这是一个自然语言处理和相关的语言知识资源建设的世界性难题。该文以求解“网球问题”为目标,对目前比较主流的几种语言词汇和概念知识库系统(包括WordNet、VerbNet、FrameNet、ConceptNet等)进行检讨,指出它们在解决“网球问题”上还都存在一定的局限性,着重分析它们为什么不能解决“网球问题”。进而指出基于生成词库论的名词物性结构知识描写体系可以解决“网球问题”,主张用名词的物性结构知识和相关的句法组合知识来构建一种以名词(实体)为核心的词汇概念网络,以弥补上述几种知识库系统的不足,为自然语言处理提供一种可资参考的词汇概念知识库体系。
WordNet虽然有词的分类Lexnames,但是太过笼统,对于具体的情景联想关系,并没有什么解决办法。毕竟情境的复杂程度也不低,也许不是一个字典所能涉及的,网络上有一些用物性结构知识解决网球问题的论文,有兴趣的朋友可以看一看。
4消歧问题
WordNet是以词义为主键构建的字典,可是当我们扫描一篇文章的时候,出现的都是具体的词,那么这一个词就对应多个词义,如何分辨出语境中这一词对应的是哪一个词义,才是跨语言识别和句意分析的重点。
5词性较少
WordNet中的词性只有四种,即名词、动词、形容词、副词。
但是自然语言中虽然以这四种词为主,却并不只有这四种词,比如连词和代词,WordNet中都没有(这就导致一句“I love you”,WordNet可能只能识别出“love”,当然,代词方面需要明确其指代对象,这就不是字典可以解决的问题了。)而这四种词性又可以细分并且存在交叉,比如地名、人名、动名词等。现在这一方面反而是一些分词软件走在了前面,WordNet则没有进一步的区分。
以上是我对WordNet的理解、看法和一些想法。下次将通过分析nltk包中的wordnetpy文件来为大家介绍wordnet的每一项具体的功能。
1) 什么是数据库?有什么特点?
答:数据库是长期存储在计算机内、有组织的、可共享的数据集合。
特点:(1)数据结构化 (2)数据共享 (3)数据独立性
2) 什么是数据库系统?试述数据库系统的组成及特点。
答:数据库系统指在计算机系统中引入数据库后的系统构成
组成:一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员和用户构成。
特点:
(1) 数据结构化
是数据库系统与文件系统的根本区别。
在数据库中,数据是按照某种数据模型组织起来的,不仅文件内部数据之间彼此是相关的,而且文件之间在结构上也有机地联系在一起,整个数据库浑然一体,实现了整体数据的结构化。
数据库系统存取方式灵活,可以存取数据库中的某一个数据项、一组数据项、一个记录或一组记录。而文件系统,数据的最小存取单位是记录。
(2)数据共享性好,冗余度低
(3)较高的数据和程序的独立性。
二级映象功能。
(4)数据由DBMS统一管理和控制
数据库系统d性大,易于扩充。
以上就是关于数据库是什么意思全部的内容,包括:数据库是什么意思、知识库管理系统作用有哪些、什么是Linked Data相比于传统的知识库,它有那些优势等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)