语义网的研究趋势

语义网的研究趋势,第1张

语义网是网络时代的高级智能产物,其应用广泛,有着美好未来。下面将介绍主要应用技术与研究趋势。

经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多,会使得自底向上的方法更加引人注目。尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上,今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜索引擎。

自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。在自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达),Alex HAS a brain (属性表达),and Alex IS the father of Alice,Lilly,and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。当前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。Microfomats提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的标签。Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr,Eventful,LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于书的页面,已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。

关于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。

已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。

企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。

从企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样,基于XML的数据库承载了太多的期望,让我们拭目以待。

语义API是随着语义网的发展而发展的,这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的Hacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹),输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个图片出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。

可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。越来越多人意识到对搜索技术边缘化的改进是很难击败google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用户可以决定他们对哪些类别感兴趣。搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。让我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue,ThumbStrips,Cooliris与BlueOrganizer等。

语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们与网络信息交互方式的期望。

语义网的高级阶段使得图书馆,售订票系统,客户管理系统,决策系统均能发挥很好的效果。譬如要出去旅行,只要把具体时间要求与自己喜爱的国内旅游类型提供给语义网支持的查询系统,那么很快相应的国内景点,最佳旅游方案与注意事项,提示以及旅行社的评价均能很快速得准备在浏览器页面上。

语义网终会把网络的高级阶段应用到世界的每一个角落,每个人均有自己的网络IP一样的身份z明.个人消费信用、医疗、档案等等全在自己的网络身份里面。同时网络社区更比现实社区更有活跃力,网络社会更有秩序、更和谐。

文/thomas claburn

一些公司联手致力于语义网开发环境和数据库的研发。

有人把语义网(semantic web)称为web3.0,现在它就要粉墨登场了。编程工具开发商topquadrant公司和franz公司日前表示,他们将把前者的topbraid composer和franz的allegrograph 64位rdf存储数据库结合起来,形成一个语义网开发环境和数据库,提高计算机的“智力”。

语义技术可增强计算机对数据的理解,在整合大型数据集时用处特别显著。它对于搜索应用的用处也很大,因为语义技术让计算机推断出未有明确定义的数据元素之间的关系。一个关键词搜索通常仅仅返回包含查询关键字的文档,而语义搜索则能返回与搜索词汇的含义有关的结果(例如:tank一词,有坦克、水容器等两种含义,语义技术能予以辨别),或者是与搜索词汇的同义字有关的结果(例如:tank意为坦克时,同义字有armored vehicle,装甲车)。

目前,还没有出现真正意义上的语义网,这在很大程度上是因为现有工具还无法承担这样的任务。topquadrant的联合创始人和执行合伙人拉尔夫·霍奇森(ralph hodgson)说:“我们必须要创建出合适的工具,来支持语义网的实现。”他说,包括protege和swoop等在内的公共领域许可软件都还无法商用。

使用标准数据库和开发环境的语义程序似乎不能很好地拓展。“你可以用自己的方式进行编程,”霍奇森说,“就是费点劲。”

语义网有许多的标准、协议以及包括rdf、owl(web ontology language,web本体语言)、sparql等在内的多种语言,此外还有可让开发者在语义框架下组织数据的xml相关技术。上述两家公司的产品组合,提供了一个基于eclipse的图形开发环境和一个能与大量rdf数据同比扩大的数据库。

葛兰素史克公司(glaxosmithkline,下称gsk)正在对allegrograph进行测试,以提供一个更为灵活的it基础设施并通过自动化提高生产力。这家制药公司正在利用一个语义数据提取层进行试验。这项生物实验室工作有很多制药公司参与其中,因而产生了许多数据,gsk的一位主管罗宾·麦克伊泰(robin mcentire)说:“因此我们希望把它聚合起来,并在更高的一个层级上把它呈现出来,语义技术大有用处。”

该公司的目标是应用基于计算机的推理,从而对大量实验数据进行评估和过滤。“低层级的推理是很好的开端,我们的科学家从事的任务并非‘高科技’,但是特别耗时的任务就可以利用这项技术实现自动化。”麦克伊泰说。

伊士曼-柯达公司(eastman kodak,下称柯达)也在使用allegrograph软件,它从可视化数据中进行含义推断,从而来帮助客户更好地维护他们日渐庞大、难以管理的数字影像。

“语义理解技术将帮助消费者更好地管理自己的的图片,”柯达主席兼首席执行官(ceo)彭安东(antonio perez)去年在一场演讲中表示,“照片之间也能相互‘认识’了—不用人们指点,利用元数据(metadata),一张照片便可寻找到具有相关元数据的另一张照片,因此,所有的照片便能以新的类别进行重新组合,无非取决于它们之间不同的关联方式而已。”


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9702300.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存