什么是Linked Data相比于传统的知识库,它有那些优势

什么是Linked Data相比于传统的知识库,它有那些优势,第1张

linked data 按字面的意思是被连接起来的数据。Tim berners-lee的一篇博客的介绍,从网络的发展上来看,“Net”或是“internet”是计算机直接通过网线形成的远距离通信网路,“Web”或是“world wide web”是计算机里的文件直接互联。而网络发展的下一步就是实现文件中的数据的直接互联,也就是所谓的“linked data”。 Tim认为这就是他构想中的web 30中的基础环节之一。也就是说数据的直接互联能够让计算机“理解”文件中的语义。对于如何实现,不同的流派有提出过不同的方法。目前一种通用的做法简单来说是把网页文件中的每一个实体用元数据做标记(好理解的例子是一篇文章的“标题”部分用title标注,“作者”部分用author标注),然后通过建立RDF和ontology(RDF理解成一种主谓宾之类的句式关系模型就好,至于ontology我的理解是跨数据系统间的通用关系模型,可能理解的不对,不过不要试着去百度这个词,我试过。。)将不同的元数据标注下的实体的关系表现出来 (我真的不是学技术的,再细化解释不下去了)。

这对于构建“semantic web”(即 语义网)甚至是现在非常热的“the Internet of thing” (即物联网) 有着重要的意义。这样又扯出了很多新的概念,比如语义网,比如物联网,不过这与题主的问题有点远,我下面用一个语义搜索的例子来稍微帮助下阐述。我们知道现在主流的搜索引擎都是关键字搜索引擎,这种引擎的实现思路在核心上可以说是受到早期的图书馆管理中的索引检索的启发,搜索引擎事先遍历,抓取网上的网页,将网页中的内容做为索引连同url等信息一并存入数据库中。

举个例子,在用户输入搜索语句,比如“苹果”时,因为机器无法判断这个“苹果”是指水果还是苹果公司,所以会将数据库中含有“苹果”两字的网页都返回给用户。如果输入的检索是一个句子, 比如“苹果手机”,现阶段的搜索引擎仍然无法判断“苹果手机”是特指苹果公司的手机,返回的结果里会有很大一部分是含有“苹果”,“手机”这样的关键词的网页(含有“苹果手机”这个关键词的网页一样会出现在结果里,并可能因为一些优化算法被集中靠前显示,这样看上去就好像搜索引擎知道你在检索“苹果手机”一样)。

当用户的检索变得复杂的时候,比如上面说的“苹果手机” (其实还不算复杂,真正复杂的是:我的朋友中谁适合做我女朋友。。。),linked data的作用就显现了。对,通过前面提到的元数据标注,RDF关系模型,机器能够了解当“苹果”和“手机”一齐出现的时候,很大程度上是指“苹果手机”。当连接的数据多了之后,就会形成巨大的一个知识图谱,现实中的例子就是google 的knowledge graph,建议搬个梯子看下。如果我们在其中加入人的社会关系和她在社交网络中的分享,就可以对搜索结果做进一步的优化(判断自己和好友的兴趣,爱好并以此作为依据筛选结果等等),成功帮我找到一个女朋友。恩,这才是我写毕业论文的初衷,不过离题主的问题有点偏了。

总之,linked data 是一种实现机器智能的基础手段,相比于传统知识库的一个优势是能够执行更精确智能的检索。欢迎讨论,补充和纠正。

将ShowRecordowl文件存储到MySQL数据库中,数据库叫Jena,在Eclipse中创建工程OperaOntology,代码如下:importJavaio;importjavasqlSQLException;importcomhphpljenadb;importcomhphpljenaontologyOntClass;importcomhphpljenardfmodel;publicclassOperaOntology{publicstaticfinalStringstrDriver="commysqljdbcDriver";publicstaticfinalStringstrURL="jdbc:mysql://localhost:3306/jena";//localhost的后面要直接写冒号,再写3306;publicstaticfinalStringstrUser="root";publicstaticfinalStringstrPassword="root";publicstaticfinalStringstrDB="MySQL";publicstaticvoidmain(String[]args){try{DBConnectionconnection=newDBConnection(strURL,strUser,strPassword,strDB);Systemoutprintln(connection);//创建连接时,第四个参数需要指定所用的数据库类型;也就是说strDB的值应该是“MySQL”try{ClassforName("commysqljdbcDriver");Systemoutprintln("驱动程序已经安装。");}catch(ClassNotFoundExceptione){Systemoutprintln("ClassNotFoundException,Driverisnotavailable");}Systemoutprintln("数据库连接成功。");//从此处开始读入一个OWL文件并且存储到数据库中;ModelMakermaker=ModelFactorycreateModelRDBMaker(connection);//使用数据库连接参数创建一个模型制造器ModeldefModel=makercreateModel("ShowRecord");//创建一个默认模型,命名为CostumeModel,因为我要存入的OWL文件名是CostumeFileInputStreamread=null;try{Filefile=newFile("e:/ontologies/ShowRecordowl");read=newFileInputStream(file);}catch(FileNotFoundExceptione){eprintStackTrace();Systemoutprintln("未找到要存储的本体文件,请检查文件地址及名称");}Systemoutprintln("已将本体文件转换为字节流文件。");InputStreamReaderin=null;try{in=newInputStreamReader((FileInputStream)read,"UTF-8");}catch(UnsupportedEncodingExceptione){eprintStackTrace();Systemoutprintln("不支持上述字符集。");}Systemoutprintln("已将字节流文件转换为UTF-8编码。");defModelread(in,null);try{inclose();}catch(IOExceptione){eprintStackTrace();Systemoutprintln("无法关闭字节流文件。");}Systemoutprintln("已将字节流文件关闭。");defModelcommit();Systemoutprintln("数据转换执行完毕,已将本体文件存入数据库。");try{connectionclose();}catch(SQLExceptione){eprintStackTrace();Systemoutprintln("文件无法关闭。");}}catch(RDFRDBExceptione){eprintStackTrace();Systemoutprintln("出现异常");}Systemoutprintln("已将本体文件持久化到数据库中");}}以上步骤成功完成以后,我登录到MySQL的界面查询工具查看Jena数据库的表,点击“Catalogs“

一、信息采集技术

信息采集技术包括对象数据采集和元数据采集。

1)对象数据采集主要包括文本信息采集和图像信息采集,文本信息采集工作主要指将原来纸介质文献进行数字化。这仅仅依靠人工录入、人工校对是远远不够的,要完成大量文本信息的数字化,需要可靠的扫描技术和OCR(Optical Character Recognition,光学字符识别)识别技术。图像信息的采集需要应用扫描技术,重要的现场图像可以应用数码摄像机、数码照相机等工具进行采集,而原来存储在录像带等介质上的图像资料可以通过相应的技术完成数字化。当前文档一般都提供数字化版本,只要按集成化的数字图书馆系统的要求进行加工存储组织即可。

2)元数据就是关于数据的数据。元数据最基本的用途就是管理数据,从而实现查询、阅读、交换和共享。元数据采集技术指从数据库系统、文件系统、HTML文件中采集元数据,从而形成本地元数据库仓储的技术。

二、信息加工技术

信息加工技术包括对象数据加工技术和元数据加工技术。

(1)对象数据加工技术是指采集的为对象数据,则按元数据标准和著录规范进行标引、分类工作。

(2)元数据加工技术采集的为元数据,则按元数据标准和著录规范,对采集数据进行转换和清洗工作,即对元数据进行规范化与标准化,去除不合要求的元数据。

(3)自动标引、人工标引技术主要涉及主题标引和分类标引,是信息资源加工的一个重要环节。自动标引技术以主题词表和分类表为基础,为标引人员自动生成主题词与分类。

三、信息存储技术

目前图书馆的书目信息主要存储在各种不同环境的数据库中,由于异构数据库间并不兼容,往往需要编制一些转换程序,使得信息共享的效率大大降低。同时,为了开发网上对图书馆信息的快速和准确查询服务,现有图书馆的书目信息库已不能满足这一要求,必须增加其他内容的数字化信息。由于目录信息是非结构的信息,也不适宜用现有的数据库来表示。因此,图书馆中部分数字化信息可以使用XML来表达和存储。用户的检索请求通过Web服务器调用程序传送给相应的系统内部服务器,在系统内部,所有的信息处理工作都是围绕着XML文件系统进行的,当然其前提是将数据库中的信息转化成XML文档,将书的目录信息通过相应工具生成XML文档,传送到用户的浏览器中进行显示,或传送到其他的Web服务器实现信息共享。

信息的存储、信息的检索、信息的分析都要利用数据库技术。传统数据库技术经历了网状数据库、层次数据库和关系数据库三个阶段。建立在信息集成基础上的数字图书馆提供的信息资源不仅有普通的可以结构化的电子文本,还有图像、音频、视频、软件等等各种类型的信息,由于这种多媒体信息的存在和网络的发展,推动了数据库技术的发展。面向对象数据库技术、非结构化数据库技术、多媒体数据库技术日臻成熟。这种数据库的记录长度是不定的,可以储存各种类型的信息,因而可以轻松地处理多媒体信息。使得建立在信息集成基础上的数字图书馆系统的功能不仅仅提供一次信息,还提供经过处理的二次信息,还可以对信息资源进行处理并进行信息分析提供决策服务。因此,支持管理决策过程的、面向主题的、集成的、稳定的、随时间而变的数据存储技术也是建设数字图书馆不可缺少的技术之一。

四、信息检索技术

信息检索技术发展非常迅速,尤其是Web化的搜索方式正在成为普遍的检索模式并构成当今信息检索的基本方法,它集超文本技术、网络技术和多媒体技术为一体。万维网的浏览器/服务器模式具有优化的结构和强大的功能,Web化的搜索方式具体表现为各种SearchEngine(搜索引擎)的应用。SearchEngine(搜索引擎)是互联网上具有查询功能的网页的统称,目前已多达数百种,包括WebSearChEngine(万维网搜索引擎)、FTPSearehEngine(文件搜索引擎)、Email/WhitePageSearehEngine(电子函件/白页搜索引擎)、YellwPageSearehEngine(黄页搜索引擎)、UsenetsearehEngine(新闻论坛搜索引擎)、Meta-SearehEngine(元搜索引擎)等类型。万维网是互联网上最先进的网络信息检索系统,也是最受检索者喜爱的信息检索系统之一。

将人工智能领域的Agent技术,运用于互联网网络化智能信息检索中,给出了一种新的互联网智能检索技术。智能软件Agents是能为用户执行特定的任务,具有一定程度的智能以允许自主执行部分任务,并以一种合适的方式与环境相互作用的软件程序。Agent技术具有主动性、智能性、协作性、移动性,通过内在联系,建立模糊关系,学习用户个性化的思维,进行模糊推理,这就能为用户提供高效而完整的信息服务,将Agent技术与模糊信息处理两者结合应用于检索服务中,得到了一个解决信息检索问题更有效的途径。

五、信息服务技术

1)索引技术:一般有内容索引、结构索引和链索引。这些索引在建立时涉及索引的结构、索引的可扩展性和分布特点、索引生成的并行化等技术问题。

2)开放式URL连接系统:因为一个连接系统需要与多个源点数据库互通,所以必需规划连接系统与源点数据库通信的方法,被提议的标准称为开放式的URL,用在URL里传送元数据。和开放式URL有兼容性的连接系统叫做开放式URL连接系统。开放式连接为连接程序提供了一个独立的系统。连接系统从某一个源点收到元数据后,再根据自己数据库里的数据,决定提供给用户的目标数据。

3)数据挖掘技术:网络信息挖掘技术,也可以称为数据库中的知识发现,是从大量数据中抽取出先前未知的、完整的、可信的、新颖的、有效的信息的高级处理过程,它是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息或者更高层次的知识和规律来做关键的决策。信息挖掘包括数据挖掘((DataMining)和文本挖掘(TextMining)两种,它采用先进的技术来分析信息资源。

4)信息推送技术:信息推送技术是指一种按照用户指定的时间间隔或根据发生的事件把用户选定的数据自动推送给用户的计算机数据发布技术。推送技术的发展方向将是多点播送和多址发送的内容传递。RSS技术是信息推送技术中的一种,RSS是一种 XML(Extensible Markup Language,扩展标记语言)格式,用于为内容整合客户端提供选择性的、汇总过的网页内容,更确切地说,是基于XML,RDF的描述资源集合(特别是网络资源等)的轻便、可扩展的元数据集。RSS作为描述和同步网站内容的格式,是目前使用最广泛的XML应用。

5)多语种技术:可以通过多语言浏览功能,通过机器翻译功能为用户提供多种服务。

6)音频、视频播放技术:利用互联网播放MPEG,MP3,WAVE等高质量的音频文件和AVI等视频文件。

知识图谱源于语义网,将自然语言文本中描述的知识按照三元组的方式进行描述与表示,从而让计算机可以进行存储、计算与应用。其主要数据模型是RDF数据模型。由RDFS于OWL提供模式(schema)的描述方法并支持推理。知识图谱可以认为是以RDF或属性图表示的知识数据本身。其可以用图数据库存储也可以用其他数据库存储。2000年的时候Neo4j为了解决多媒体关系系统中schema 经常会发生重大变化的问题,提出了用图的方式进行数据的组织、存储与应用。经过发展于2010年正式提出了属性图模型。属性图数据模型跟RDF数据模型的起源于发展是两条线,只不过因为属性图更加易于理解并且通用(更接近通用的图抽象方法)知识图谱也可以用属性图模型存储。知识图谱中常用的RDF模型可以认为是图在语义方向的一种特种模型。

本体论(英语:Ontology),又译存在论、存有论,它是形而上学的一个基本分支,本体论主要探讨存有本身,即一切现实事物的基本特征。有的哲学家,如柏拉图学派认为:任何一个名词都对应着一个实际存在;另外一些哲学家则主张有一些名词并不代表存在的实体,而只代表一种集合的概念,包括事物或事件,也有抽象的,由人类思维产生的事物。例如“社团”就代表一群具有同一性质的人组成的集合;“几何”就代表一种特殊知识的集合等。本体论就是“研究到底哪些名词代表真实的存在实体,哪些名词只是代表一种概念”。所以本体论成为某些哲学分支的基础。

1概念编辑

对本体论这个词的定义虽然有各种不同,但一般对它还是有一定的的理解。大体上说,马克思以前的哲学所用的本体论有广义和狭义之别。

从广义说,指一切实在的最终本性,这种本性需要通过认识论而得到认识,因而研究一切实在最终本性的为本体论,研究如何认识则为认识论,这是以本体论与认识论相对称。

从狭义说,则在广义的本体论中又有宇宙的起源与结构的研究和宇宙本性的研究之分,前者为宇宙论,后者为本体论,这是以本体论与宇宙论相对称。

这两种用法在现代西方哲学中仍同时存在。

马克思主义哲学不采取本体论与认识论相对立、或本体论与宇宙论相对立的方法,而以辩证唯物主义说明哲学的整个问题。

(来源于冯契主编《外国哲学大辞典》)

2研究编辑

本体论研究“本体”的研究,在希腊哲学史上有其渊源。从米利都学派开始,希腊早期哲学家就致力于探索组成万物的最基本元素——“本原”(希腊文arche,旧译为“始基”)。对此“本原”的研究即成为本体论的先声,而且逐步逼近于对being 的探讨。之后的巴门尼德深刻地提出,“是以外便无非是,存在之为存在者必一,这就不会有不存在者存在”。并且认为存在永存不变,仅有思维与之同一,亦仅有思维可以获致此真理;而从感觉得来者仅为意见,从意见的观点看,则有存在和非存在,存在既非一从而有变灭。巴门尼德对being(是,存在)的探讨, 建立了本体论研究的基本方向:对于被“是者”所分有的“是”,仅只能由思维向超验之域探寻,而不能由感觉从经验之中获取;此在超验之域中寻得之“是”,因其绝对的普遍性和本原性,必然只能是一。不过,这一点只有苏格拉底和柏拉图才能真有领会,与他同时的希腊哲人或多或少地有所忽略。因而,如原子论者虽然也区分了真理认识和暗昧认识,认识到思维与感觉的不同;但其探寻的“本原”可否由经验获致却极模糊,因而实际上并未能区分超验和经验。而在苏格拉底那些没有最终结论的对话中,已破除了经验归纳方法获取真理的可能性;在柏拉图的理念论中,则鲜明地以超验世界的“理念”为真理之根本。

在古希腊罗马哲学中,本体论的研究主要是探究世界的本原或基质。各派哲学家力图把世界的存在归结为某种物质的、精神的实体或某个抽象原则。巴门尼德提出了唯一不变的本原“存在”,使关于存在的研究成为这一时期的主题。亚里士多德认为哲学研究的主要对象是实体,而实体或本体的问题是关于本质、共相和个体事物的问题。他认为研究实体或本体的哲学是高于其他一切科学的第一哲学。从此,本体论的研究转入探讨本质与现象、共相与殊相、一般与个别等的关系。在西方近代哲学中,笛卡尔首先把研究实体或本体的第一哲学叫做“形而上学的本体论”。17~18世纪,莱布尼茨及其继承者沃尔夫试图通过纯粹抽象的途径建立一套完整的、关于一般存在和世界本质的形而上学,即独立的本体论体系。沃尔夫把一般、晋遍看作是脱离个别、单一而独立存在的本质和原因。康德一方面认为建立抽象本体论的形而上学不可能,本体论要强研究的只能是事物的普遍性质及物质的存在与精神存在之间的区别;另一方面又用与认识论相割裂的、先验的哲学体系来代替本体论。黑格尔在唯心主义基础上提出了本体论、认识论和逻辑学统一原则,并从纯存在的概念出发构造了存在自身辩证发展的逻辑体系。

在现代西方哲学中,一些流派(实证主义、分析哲学等)反对任何形而上学和本体论。但也有些人试图重新建立关于存在学说的本体论,如胡塞尔的“先验的本体论”、海德格尔的“基本本体论”、哈特曼的“批判本体论”等,他们往往借助于超感觉和超理性的直觉去建立概念体系,其观点带有唯心主义或不可知论,且往往同错误的社会观点相联系,为宗教哲学所支持。

在中国古代哲学中,本体论叫做“本根论”,指探究天地万物产生、存在、发展变化根本原因和根本依据的学说。中国古代哲学家一般都把天地万物的本根归结为无形无象的与天地万物根本不同的东西,这种东西大体可分为三类:(1)没有固定形体的物质,如“气”;(2)抽象的概念或原则,如“无”、“理”;(3)主观精神,如“心”。这三种观点分别归属于朴素唯物主义、客观唯心主义和主观唯心主义。在中国哲学史的研究中,有些学者用“本体论”一词专指那种在物质世界之外寻找物质世界存在依据的唯心主义学说,如魏晋时期王弼的贵无论。

3计算机语义网核心概念

本体论(ontology)是哲学概念,它是研究存在的本质的哲学问题。但近几十年里,这个词被应用到计算机界,并在人工智能、计算机语言以及数据库理论中扮演着越来越重要的作用。

然而,到目前为止,对于本体论,还没有统一的定义和固定的应用领域。斯坦福大学的Gruber给出的定义得到了许多同行的认可,即本体论是对概念化的精确描述(Gruber,1995),本体论用于描述事物的本质。

在实现上,本体论是概念化的详细说明,一个ontology往往就是一个正式的词汇表,其核心作用就在于定义某一领域或领域内的专业词汇以及他们之间的关系。这一系列的基本概念如同工程一座大厦的基石,为交流各方提供了一个统一的认识。在这一系列概念的支持下,知识的搜索、积累和共享的效率将大大提高,真正意义上的知识重用和共享也成为可能。就此意义而言,Web语言XML(Extensible Markup Language,可扩展标识语言)就是本体理论的一项典型应用;xml文档就是一个标签化的词汇表。

本体论可以分为四种类型:领域、通用、应用和表示。领域本体包含着特定类型领域(如电子、机械、医药、教学)等的相关知识,或者是某个学科、某门课程中的相关知识;通用本体则覆盖了若干个领域,通常也称为核心本体;应用本体包含特定领域建模所需的全部知识;表示本体不只局限于某个特定的领域,还提供了用于描述事物的实体,如“框架本体”,其中定义了框架、槽的概念。

可见,本体论的建立具有一定的层次性,在教学领域而言,如果说某门课程中的概念、术语及其关系看成是特定的应用本体,那么所有课程中的共同的概念和特征则具有一定的通用性。

Ontology 这个哲学范畴,被人工智能界赋予了新的定义,从而被引入信息科学中。然而信息科学界对 Ontology 的理解也是逐步发展才走向成熟的。1991 年 Neches 等人最早给出 Ontology 在信息科学中的定义:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定义。”后来在信息系统、知识系统等领域,随着越来越多的人研究 Ontology,产生了不同的定义。1993 年 Gruber 定义 Ontology 为“概念模型的明确的规范说明”。1997 年 Borst 进一步完善为“共享概念模型的形式化规范说明”。Studer 等人对上述两个定义进行了深入研究,认为 Ontology 是共享概念模型的明确的形式化规范说明,这也是目前对 Ontology 概念的统一看法。

Studer 等人的 Ontology 定义包含四层含义:概念模型(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)。“概念模型”是指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态;“明确”是指所使用的概念及使用这些概念的约束都有明确的定义;“形式化”是指 Ontology 是计算机可读的,也就是计算机可处理的;“共享”是指 Ontology 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而非个体。Ontology 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。

尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于 Ontology 的认识是统一的,都把它当作是领域(领域的范围可以是特定应用中,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互 *** 作、共享等)的一种语义基础,即由 Ontology 提供一种共识。而且 Ontology 提供的这种共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领域讨论 Ontology,就要讨论如何表达共识,也就是概念的形式化问题。

Semantic Web 中的 Ontology

Ontology 研究热点的出现还与 Semantic Web 的提出和发展直接相关。

Semantic Web 是 Tim Berners-Lee提出的又一个概念。Tim Berners-Lee 认为,当前的 Web 是供人阅读和理解的,它作为一个越来越大的文件媒体,并不利于实现数据和信息的自动化处理。新一代的 Semantic Web 将不仅仅为人类而且能为计算机(信息代理)带来语义内容,使计算机(或信息代理)能够“理解”Web 内容,进而实现信息处理的自动化。他认为 Semantic Web 不是与当前 Web 隔离的另一个 Web,而是对当前 Web 的扩充,在 Semantic Web 中,信息的语义经过完好的定义,能够更好地促进计算机和人之间的相互合作。

为了实现 Semantic Web 的功能,需要提供一种计算机能够理解的、结构化的语义描述机制,以及一系列的推理规则以实现自动化推理。Semantic Web 的挑战在于提供一种语言,

它能够表述数据和在数据中进行推理的规则,而且需要这种语言能够将目前存在于知识表述系统之中的规则能够被应用到 Web 上。

在 Tim Berners-Lee 的 Semantic Web 框架中,有几个关键的组成元素。它们分别是 XML,RDF(S) 和 Ontology。

XML 允许用户定义自己的文件类型,允许用户定义任意复杂的信息结构,但是 XML 只具有语法性,它不能说明所定义的结构的语义。XML 之所以在 Semantic Web 中处于重要的地位与 XML 是一种载体语言、XML 命名机制等有很大的关系。

在 Tim Berners-Lee 看来,语义的描述是通过 RDF 进行的。RDF 的两个特性对此有着特殊的贡献:

(1)RDF 是一种由资源、属性、属性值组成的三元结构。这种三元结构形似句子中的主语、谓语、宾语之间的关系。一个描述资源的 RDF 语句,就如同“某件事具有什么样的属性”这样的句子一样有效。它能够表明一种对事物存在状态的断言,可以表述大多数情况下计算机需要处理的知识。

(2)RDF 的另一个重要特点就是组成 RDF 的资源、属性、属性值这三个元素都必须是被 URI(统一资源标识)所标识的。由于 RDF 利用 URI 来对信息进行编码,它意味着被 RDF 所引用的任何资源、属性和属性值都是经过预先定义的、不具二意性的概念。

由于 RDF 能够表示陈述句,并且主语、谓语和宾语的三个组成元素都是通过 URI 所标识的,所以它具有语义表述的特性。但 Semantic Web 的要求还远不止于此,Semantic Web 还需要加入逻辑功能:Semantic Web 需要能够利用规则进行推理、选择行动路线和回答相关问题。Ontology 是 Semantic Web 实现逻辑推理的基础。

Semantic Web 研究者也认为,Ontology 是一个形式化定义语词关系的规范化文件。对于 Semantic Web 而言,最典型的 Ontology 具有一个分类体系和一系列的推理原则。其中,分类体系定义对象的类别和类目之间的关系。实体之间的类/子类关系对于 Web 应用具有重要的价值。在 Ontology 中,还可以为某个类添加属性来定义更多的类目关系。这些类目关系提供了的推理的基础。

借助 Ontology 中的推理规则,Semantic Web 应用系统可以提供更强的推理能力,例如可以在一个地理 Ontology 中加入这样一条规则,“如果一个城市代码与一个省代码相关,并且一个地址利用了城市代码,那么这个地址与就与相应的省代码相关”。通过这一规则,程序可以推理出中国科学院文献情报中心,在中关村,应当在北京市。

为了 Semantic Web 研究者为了实现对 Ontology 的描述,在 RDF 的基础之上,发展了 RDFS。RDFS 借助几个预先义的语词(如 rdfs:Resource, rdfs:Class, rdf:Property, rdfs:subClassOf, rdfs:subPropertyOf, rdfs:domain, rdfs:range)能够对概念之间的关系进行有限的描述。为了更方便全面地实现 Ontology 的描述,W3C 在 RDFS 的基础之上,借助了 DAML 和 OIL 的相关研究,正在积极推进 OWL(Web Ontology Language)的应用。自 2004 年 2 月 10 日,OWL 已经成为了一个 W3C 推荐的标准。

Gene Ontology

本体论为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找无章可循。Gene Ontology (GO) 就是为了解决这种问题而发起的一个项目。

Gene Ontology 中最基本的概念是 term 。GO 里面的每一个 entry 都有一个唯一的数字标记,形如 GO:nnnnnnn,还有一个 term 名,比如 "cell", "fibroblast growth factor receptor binding",或者 "signal transduction"。每个 term 都属于一个 ontology,总共有三个ontology,它们分别是 molecular function, cellular component 和 biological process。

一个基因 product 可能会出现在不止一个 cellular component 里面,也可能会在很多 biological process 里面起作用,并且在其中发挥不同的 molecular function。比如,基因 product "cytochrome c" 用 molecular function term 描述是 "oxidoreductase activity",而用 biological process term 描述就是 "oxidative phosphorylation" 和 "induction of cell death",最后,它的 celluar component term 是 "mitochondrial matrix" 和 "mitochondrial inner membrane"。

Gene Ontology 中的 term 有两种相互关系,它们分别是 is_a 关系和 part_of 关系。is_a 关系是一种简单的包含关系,比如 A is_a B 表示 A 是 B 的一个子集。比如 nuclear chromosome is_a chromosome。part_of 关系要稍微复杂一点,C part_of_D 意味着如果 C 出现,那么它就肯定是 D 的一部分,但 C 不一定总会出现。比如 nucleus part_of cell,核肯定是细胞的一部分,但有的细胞没有核。

Gene Ontology 的结构是一个有向无环图,有点类似于分类树,不同点在于 Gene Ontology 的结构中一个 term 可以有不止一个 parent。比如 biological process term "hexose biosynthesis" 有两个 parents,它们分别是 "hexose metabolism" 和 "monosaccharide biosynthesis",这是因为生物合成是代谢的一种,而己糖又是单糖的一种。

Gene Ontology 使用 Oxford Dictionary of Molecular Biology (1997) 中的定义,在分选时还要参考 SWISS-PROT, PIR, NCBI CGAP, EC…中的注释。建立起来的标准不是唯一的标准(这是 GOC 所一直强调的),自然也不规定每个研究者必须遵循这套控制字集系统。所采用的动态结构 (dynamic structure) 使用 DAGs(Directed Acyclic Graphs) 方式的 network,将每一个 ontology 串连起来,形成树状结构(hierarchical tree),也就是由前面所说的“is a”和“part of”两种关系。

由于 GO 是一种整合性的分类系统,其下的 3 类主 ontology 我们前面说是独立的,但是无论是 GOC 原初的设计还是我们的使用中其实都还是存在一定的流程关系。一个基因/蛋白质或者一个 ontology 在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件 (cellular component),其次就是此组分/元件在分子水平上所行使的功能 (molecular function),最后能够呈现出该分子功能所直接参与的生物过程 (biological process)。由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。

TAMBIS 计划是目前唯一实现了在概念和联系层次上集成信息源的系统。但是还有其他一些相关计划正在研究之中。

比如 BioKleisli (宾夕法尼亚大学计算机系),采用 Mediator(调节器)技术实现了若干数据源的集成,其后的 K2/Kleisli 系统还利用数据仓库实现了 OLAP(联机分析处理)。

DiscoveryLink (IBM 研究院),基于 Wrapper/ Mediator(包装器/调节器)实现了信息源集成,提出了查询的分解和基于代价的优化策略。

TAMBIS (曼彻斯特大学计算机系)基于 Wrapper/ Mediator 实现了信息源集成,借助 BioKleisli 中的 CPL 语言作为查询语言并给出了查询优化的方法。通过 TaO(TAMBIS Ontology)本体定义为用户浏览和查询处理提供领域知识。

本体论TINet (GSK 公司和 IBM 研究院),基于多数据库中间件 OPM(Object-Protocol Model,对象协议模型)定义数据源的对象视图,其 CORBA(Common Object Request Broker Architecture,公共对象请求代理体系结构)服务器使各数据源 Wrapper(包装器) 更易于扩充。

但是他们都存在一定的缺陷。BioKleisli 系统查询能力相对较弱,而且并未给出查询优化策略;TAMBIS 系统和 DiscoveryLink 系统集成的数据源数量相对还很少,后者在查询处理中并未运用领域知识,因而查询分解也未从语义角度考虑;TINet 系统中的查询处理能力不强。

现在面临的突出问题是在数据库查询中尤其是当多个数据库存在信息重叠时,缺乏从中选择最佳检索成员,动态生成优化检索方案的能力。而且现有的工作主要面向数据集成,而对服务集成考虑不多。支持数据与服务综合性集成的体系仍欠完备。因此这也将是 GO 未来发展和提升的一个重要方向。

4构建本体

简介

在实际的应用中,本体论学者、知识管理、人工智能、情报学(图书馆学)甚至任何一个具有大量需要归类和划分信息的部门及领域都可以成为本体论的应用对象。本体论的基本元素是词汇(term)/概念(concept),转而构成同质化的类(class)和子类(sub-class),然后各个类和概念之间加入了适合的关系(relation)后,形成了一个简单的本体。概念和类皆用来表达词汇本身,而关系则为词汇提供连接(mapping),并加入限制条件(constraint),使之与现实情况相符合。

构建本体最为常用的软件是由斯坦福大学开发的Protege,最初是应用在医学领域,后来被逐渐的扩展至其它领域。该软件本身也是一个开源软件。

步骤

构建本体的简单步骤是:

1 列出研究课题所涉及到的词条(terms)

2 按照词条的固有属性和专属特征进行归纳和修改,对词条建立类(class)以及层级化的分类模型(taxonomy)

3 加入关系(relation)连系terms和taxonomies

4 按照需要,添加实例(instance)作为概念的具象

最后在Protege中,还可以利用其附带的功能和插件对本体进行文字和图形化的导出,格式也可以自由选择。

5基本问题

概况

ontology的根本问题是:“存在的最初分类是什么?”不同流派的哲学家对这个问题有不同的解释。

这个问题使得在神学、图书馆学和人工智能的研究方面都需要运用本体论的知识,而且反映到宇宙学、道德和审美观念上。另外存在论提出的问题还包括:

什么是存在?

什么是物质物体?

什么是物体的基本属性

用什么区别确定一个物体?

“物质物体存在”的基本定义是什么?

物体的特性是什么?

存在的特性是什么?

什么时候物体不再存在?并不仅仅是变化。

为什么物体可以相对于虚无存在?

存在论历史

存在论最早可推朔到古希腊的柏拉图和亚里士多德,亚里士多德曾经定义存在论为“研究物体的存在的科学”。具体地说是研究物体的分类,也就是说:在什么情况下,一个物体可以被定义为“存在”。比论包括“普遍”的问题和“具体”的问题

观念,物体,联系

关于存在可以提出许多问题:“什么是存在?”“什么在存在?”“我是什么?”等,对于本体论来说,最基本的是找出什么是物体、什么是观念以及它们之间的联系。启蒙时代笛卡儿提出的“我思故我在”开启了本体论基本问题的先例,但笛卡儿并没有深入研究,也认为没有深入研究的必要,他认为“我思故我在”证明了上帝的存在,后来的神学家们也认为:“究竟是谁可以将这句话普遍应用到一切事物中?”当然只有上帝。但到了20世纪,当数理哲学,科学哲学和基本粒子物理学的新发现,将以前许多物质的所谓界限都打破了,人们不再满足于神学的说法。

实体和环境

在20世纪各个不同时期存在着形而上学的主观主义学派,客观主义学派,相对论学派等不同流派,后现代主义的实体哲学家们力图通过在不同环境下的哲学行动来重新定义上述的各个问题,主要依赖于生物学、生态学和认知科学的最新研究成果,了解动物在自然和人工提供的环境中的认知情况。

命题相对于不同环境的变化,使得存在更难定义。如果人们说:“A是B”,“A必定是B”或“A曾经是B”究竟有什么含义?有的哲学家主张去掉英语中的“是”一词,改用以免造成容易混淆的抽象含义;另一些哲学家力图了解词汇中的深层含义和使用方式;马丁·海德格尔想区分开“存在”和“物体”的意义。

存在

存在主义者认为“存在”是最基本的概念,好多事物都可以说“是”,动词“是”有许多种用法,因此是易于混淆的,所以有许多种存在。

简单的说,本体论就是探讨这个世界上存在的一切是不是在背后都有一个抽象的、不依赖于现实世界的基础。精神的或是物质的,是不是都有自己的抽象的根据。简单的说,形而下就是指的现实的我们可感的世界,而形而上指的是可感的世界背后的原因,是抽象的,是不可感的,并且是作为可感世界的根据存在的。本体论就是探讨形而下的世界的形而上根据的。

#出版专业资格# 导语备考是一种经历,也是一种体验。每天进步一点点,基础扎实一点点,通过考试就会更容易一点点。 !

§21数字出版概述(P66)

数字出版这种新兴的出版业态正推动着出版业的转型、创新和发展。是出版业发展的重要方向之一。

一、与数字出版相关的概念

(一)电子出版

电子出版物:是指以数字代码方式,将有知识性、思想性内容的信息我加工后存储在固定物理形态的磁、光、电等介质上,通过电子阅读显示、播放设备读取使用的大众传播媒体,包括只读光盘、一次写入光盘、可擦写光盘、软磁盘、硬磁盘、集成电路卡等,以及新闻出版总署认定的其他媒体形态。(2008《电子出版物出版管理规定》)

在我国,电子出版是指将数字化内容与具备一定外在形态的物质载体固定在一起提供给消费者的出版方式,而不论其内容形式是否为数据库,读取设备是否为计算机。

(二)互联网出版

互联网出版:互联网信息服务提供者将自己或他人创作的作品经过选择和我加工,登载在互联网上或者通过互联网发送到用户端,供公众浏览、阅读、使用或者下载的在线传播行为。

互联网出版主体,是获得总署批准的互联网出版单位。

(三)手机出版(P68):是一种通过无线通信网络传送出版物内容信息的出版方式。

手机出版于互联网出版的异同:

同:都是把构成内容的文字、、声音等多媒体信息转换成一连串“纯粹的编码数字流”发送给消费者,而不须随附固定的物质载体。

异:手机出版通过电磁波依靠无线通信网络实现发送,互联网出版是通过电流或光电信号依靠有线网络来实现的。

二、数字出版的概念及其主要特征(P69)

(一)数字出版的概念:是指利用数字技术进行内容我加工,并通过网络传播数字内容产品的一种新型出版方式。

(二)数字出版的主要特征:

1内容生产数字化(可扩展标记语言)2管理过程数字化3产品形态数字化4传播渠道网络化(途径包括:有线互联网、无线通信网和卫星网络等)

三、我国数字出版的发展(P71)

(一)数字出版的兴起:

世界上:1959年美国匹兹堡大学卫生法律中心建立全文检索系统,标志书目数据库建设的开始。1974年,美国《纽约时报》建立了报纸的电子化资料库。20世纪70年代末,世界上的联机信息检索服务系统——DIALOG系统诞生。1987年,《圣何塞信使报》以网络出版形式在全球首次发行。但世界范围内的兴起,是在20世纪90年代互联网快速崛起之后。

我国:数字出版起步于20世纪90年代中期。1994年,我国正式接入因特网。1996年,国家教委主办的《神州学人》创刊,并通过中国教育与研究网全球发行,这标志中国第一份网络报刊诞生。1999年,人民出版社《中国经济发展五十年大事记》,通过人民时空网站实现网络销售,这是互联网图书出版的开始。2004年1月,总署批准成立首批50家互联网出版机构,标志着数字出版在我国正式成为一种新的出版业态。

(二)我国数字出版发展的特点:(P72)

1发展势头强劲2国家的政策支持力度不断加大3投入和产出矛盾突出

§22数字出版相关技术(P74)

一、信息处理技术:元数据规范较好地解决了基于网络的信息资源的发现、存储、管理和利用。

元数据:又称为“描述数据”,即“关于数据的数据”,用于对信息内容的主题和结构进行描述,现在一般特指基于标记语言的网络信息资源处理方案。标记语言用于解释信息资源在计算机电子文件中的结构。(作用:标引、索引和匹配)

XML/RDF标准体系:XML:网页设计、数据交换与管理的标记语言,可用于对页面信息的结构化描述,满足人们对数字资源的管理和利用需求;RDF:支持元数据在交换时能相互兼容的模型。

二、互联网技术

互联网包括三方面:①全球性、开放性和共享性的;②每一台主机都需要有“地址”;③这些主机必须按共同的规则连接在一起。

该技术历程:

新闻组、电子邮件、文件下载→超文本浏览器→云计算、无线通信、下一代互联网技术

技术始终是推动出版业发展的重要因素,互联网技术的发展,将使出版产业的发展面临更多的机遇和挑战。

§23数字出版产品(P76)

一、数字出版产品的特点

1物理空间利用率高4方便消费者全面把握知识信息

2复制成本低廉,有利于环保5互动性强,收集反馈信息便捷

3版本更新和发行都能做到快速便捷

二、数字出版产品的种类:

1数字图书:数字化的图书产品。适合工具书、专业读物、教育读物类。图文超链接功能

2数字报纸:在纸介质报纸的版式中插入音频、视频和动画的数字化连续出版物。具有很高的社会价值、经济价值、广告价值和互动价值。

3数字期刊:以传统期刊结构为表征的连续型数字出版物。超链接、即时互动,有很强的体验感。

4数据库出版物:检索型出版物,主要供公众检索查询,而不是阅读。分为网状、层次和关系型数据库。科学、技术和医学等学术出版领域。

5手机书:依托移动通信网络传播并在手机上阅读的数字化图书。格式:TXT、JAR、UMD、DPB等

6手机报:依托移动通信网络传播并在手机上阅读的数字化报纸。主要传播方式—短信或彩信形式、按无线应用协议访问形式和基于3G的推送形式。时效性强、互动性好、表现丰富、随时接受、易于保存、个性化投放和成本低廉

7手机刊:依托移动通信网络的多媒体数字化期刊。(两种:一种是电信运营商和出版社、期刊社合作经营的,主要将纸质期刊的内容经过整合后发布到移动通信网络上;一种是专门设立的手机刊出版单位经营的。)

8手机音乐:手机播放的数字化音乐作品。可以下载播放,也可以在线播放(流媒体播放)。

9电子书:三部分构成要件:①数字化内容(辞书型、商务型、平板计算机型)②阅读设备(电子纸型:柔性、廉价和低功耗;液晶型:直角显示、低耗电、体积小和零辐射等优点)③阅读软件(要具有著作权保护功能,还要能提供很好的阅读体验。)

10按需印刷:出版单位将完成我制作的内容存放在互联网服务器或移动介质中,按用户需要以数字印刷技术为其印制相应书刊。(载体介质是纸张,我、制作和发布基于数字技术完成,是传统出版与数字出版结合后的新型服务方式。)

11动漫和网络游戏产品:

①网络动漫产品和手机动漫产品是目前动漫产品的主流形式。

②网络游戏的技术架构分为两种:一种是基于浏览器形式的网页游戏;一种是客户端形式,由运营商架设服务器来提供游戏,用户通过连接服务器的本地客户端软件进行游戏。现在网游大多是客户端的。

以上就是关于什么是Linked Data相比于传统的知识库,它有那些优势全部的内容,包括:什么是Linked Data相比于传统的知识库,它有那些优势、怎么在已有的项目中,用jena的API解析owl文件内容、高校图书馆网络信息服务体系运行的技术保障等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9314483.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存