linked
data
按字面的意思是被连接起来的数据。Tim
berners-lee的一篇博客的介绍,从网络的发展上来看,“Net”或是“internet”是计算机直接通过网线形成的远距离通信网路,“Web”或是“world
wide
web”是计算机里的文件直接互联。而网络发展的下一步就是实现文件中的数据的直接互联,也就是所谓的“linked
data”。
Tim认为这就是他构想中的web
30中的基础环节之一。也就是说数据的直接互联能够让计算机“理解”文件中的语义。对于如何实现,不同的流派有提出过不同的方法。目前一种通用的做法简单来说是把网页文件中的每一个实体用元数据做标记(好理解的例子是一篇文章的“标题”部分用title标注,“作者”部分用author标注),然后通过建立RDF和ontology(RDF理解成一种主谓宾之类的句式关系模型就好,至于ontology我的理解是跨数据系统间的通用关系模型,可能理解的不对,不过不要试着去百度这个词,我试过。。)将不同的元数据标注下的实体的关系表现出来
(我真的不是学技术的,再细化解释不下去了)。
这对于构建“semantic
web”(即
语义网)甚至是现在非常热的“the
Internet
of
thing”
(即物联网)
有着重要的意义。这样又扯出了很多新的概念,比如语义网,比如物联网,不过这与题主的问题有点远,我下面用一个语义搜索的例子来稍微帮助下阐述。我们知道现在主流的搜索引擎都是关键字搜索引擎,这种引擎的实现思路在核心上可以说是受到早期的图书馆管理中的索引检索的启发,搜索引擎事先遍历,抓取网上的网页,将网页中的内容做为索引连同url等信息一并存入数据库中。
举个例子,在用户输入搜索语句,比如“苹果”时,因为机器无法判断这个“苹果”是指水果还是苹果公司,所以会将数据库中含有“苹果”两字的网页都返回给用户。如果输入的检索是一个句子,
比如“苹果手机”,现阶段的搜索引擎仍然无法判断“苹果手机”是特指苹果公司的手机,返回的结果里会有很大一部分是含有“苹果”,“手机”这样的关键词的网页(含有“苹果手机”这个关键词的网页一样会出现在结果里,并可能因为一些优化算法被集中靠前显示,这样看上去就好像搜索引擎知道你在检索“苹果手机”一样)。
当用户的检索变得复杂的时候,比如上面说的“苹果手机”
(其实还不算复杂,真正复杂的是:我的朋友中谁适合做我女朋友。。。),linked
data的作用就显现了。对,通过前面提到的元数据标注,RDF关系模型,机器能够了解当“苹果”和“手机”一齐出现的时候,很大程度上是指“苹果手机”。当连接的数据多了之后,就会形成巨大的一个知识图谱,现实中的例子就是google
的knowledge
graph,建议搬个梯子看下。如果我们在其中加入人的社会关系和她在社交网络中的分享,就可以对搜索结果做进一步的优化(判断自己和好友的兴趣,爱好并以此作为依据筛选结果等等),成功帮我找到一个女朋友。恩,这才是我写毕业论文的初衷,不过离题主的问题有点偏了。
总之,linked
data
是一种实现机器智能的基础手段,相比于传统知识库的一个优势是能够执行更精确智能的检索。欢迎讨论,补充和纠正。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)