万维网之父是蒂姆·伯纳斯·李。
蒂姆·伯纳斯·李,英国计算机科学家。他是万维网的发明者,南安普顿大学与麻省理工学院教授。1990年12月25日,罗伯特·卡里奥在CERN和他一起成功通过Internet实现了>
2017年,他因“发明万维网、第一个浏览器和使万维网得以扩展的基本协议和算法”而获得2016年度的图灵奖。
万维网影响
万维网使得全世界的人们以史无前例的巨大规模相互交流。相距遥远的人们,甚至是不同年代的人们可以通过网络发展亲密的关系或者使彼此思想境界得到升华。
数字存储方式的优点是,可以比查阅图书馆或者实在的书籍更有效率地查询网络上的信息资源。可以比通过事必躬亲地去找,或通过邮件、电话、电报或者其他通信方式来更加快速地获得信息。
百度百科->
百度百科-蒂姆·伯纳斯·李
毫无疑问,这是一个信息爆炸的时代。你的服务器上充满了各种各样的数据。问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” WHInmon谈谈他自己的独到见解。虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。这些非结构化数据绝对比那些硅片的出现的要早。搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。这是什么原因造成的呢?
1、无用输入,无用输出 :
只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。
因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。
2、Internet数据和公司数据的差异 :
通过搜索Internet来提炼数据收效甚微。通过Internet提炼和整合数据是白费力气。试图在Internet整合数据好比愚公移山,大海捞针。
但是公司数据就是另外一回事了,有以下两个原因。第一,当提到公司数据,它的总量和类型是有限的,而Internet上的数据正好相反,无穷无尽。第二,不像Internet数据,公司数据几乎和公司的事务相关。我可以很肯定的说,Internet上的数据上只有小部分的数据和公司的事务相关。
因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。
3、什么样的公司数据需要整合:
因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:
1.客户数据——那些与客户信息相关的数据
2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件
3.合同数据——与公司合同相关的数据
4.发现数据(Discovery data)——诉讼过程中的数据
5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述
由此看出,公司数据限制很少,或者从理论上说,是没有限制的。
4、数据整合的优势:
整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。也就是说,公司文本数据只需要整合一次。整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。
值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。一旦进入了数据仓库,这些数据就能与结构数据结合到一起。
5、客户信息分析 :
举个例子,如针对公司的客户信息管理系统,就要分析客户信息。通常会从客户那里收到e-mail。但是,一旦那些e-mail阅读之后,通常就被放在一边了。这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。
问题是,当公司需要这些信息的时候,这些信息却很难找到。当一些e-mail涉及到潜在的未来信息,就显得更加重要了。
客户琼斯夫人案例分析
为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?
答案当然是非常重要的。如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?
这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。
注:数据无非包括结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。
作者简介
比尔•恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。
冯如于1883年出生于广东省恩平县杏圃村的农户家里,自幼心灵手巧,富有创造力,尤其喜爱风筝和车船,他能用泥土、木条等制作出一辆小车、一艘小船。1894年,冯如在旧金山打工多年的舅舅回国探亲,觉得冯如聪慧伶俐,孺子可教,将少年的他带往美国三藩市(旧金山),进工厂当了一名学习机械的童工。
学工期间,他仿佛比一般工人多几根筋,不但活做得细,且常常冒出些别人看来稀奇古怪的念头。他很快成为一名出色的机械工人。1900年,八国联军侵华辱华,劫掠紫禁城,火烧圆明园,最终以空前奇辱的《辛丑条约》收局。
次年,17岁的他毅然离开舅舅独自去纽约闯荡。他不想正式进学堂按部就班去读书,似乎更信奉实践出真知。他先后在船厂、电厂、机器制造厂当工人,专攻机器制造。五六年时间,他通晓了36种机器的制造,已是一个实践中成长起来的专家。
“冯如一号”
1904年,日本和俄国在中国东北的土地上进行了一场虎狼之战,后来在所谓中间人美国的调停下,签订了《朴茨茅斯和约》,规定将中国领土辽东的旅顺口、大连及附近海域转让给日本。消息跨洋传来,在美国的冯如难以置信。回到旧金山后,他发誓要用自己的本领报效国家。旅顺是重要港口,他本想造艘军舰献给国家,但造军舰耗资太巨,不是他能做的,更重要的是1903年底莱特兄弟发明出了飞机,他就顺势而为,改研飞机。
莱特兄弟发明飞机的消息,似一道意外的眩光,照亮了冯如前方的路。空谈不解决问题,嘴巴吹不出一架飞机,研制飞机,需要大把金钱。冯如变卖了自己的金银细软,仍有大量缺口,他只得去当地华侨中募集。冯如筹集到首轮资金1000美元,和助手朱竹泉、朱兆槐、司徒璧如(都是爱国华侨)一起,在奥克兰的屋仑地区租了一间80平方英尺的厂房,办起了属于中国人的第一家飞机制造厂(广东制造机器公司,冯如任总机械师)。
美国人的产权保护观历来超前,莱特兄弟将自己的飞机设计捂得丝严缝密,哪能将机密泄露给中国人?冯如只能从公开的飞行表演中感知飞机的外部形态,白手起家,依靠自己的双手一张张晒出图纸,一步步总装成了一架飞机。1908年4月,冯如驾驶制成的飞机在奥克兰市的麦园进行试飞。在轰隆隆的马达声中,飞机离开了地面,但飞出去不远,引擎失去牵引力,砰地一声坠落地面。人们大惊失色,他们呼唤着“冯如”的名字,从四面向飞机围拢。不料冯如从坏损的机翼下钻了出来,掸了掸裤脚上的尘埃说:“看来咱们轻敌了,得从头再来。”
他们重新设计图纸,经过周密计算,精心制作机翼、方向舵、发动机,总装合成,一架全新的飞机诞生了,取名“冯如一号”。冯如驾着用汗和血浇灌出来的飞机,在哥林达市再次起飞,平稳飞至2600英尺高度,比莱特兄弟的首飞高度高出近三倍。
两年后,航空潮风起云涌,欧美经常举办各种飞行比赛。冯如改进后的飞机翼长295英尺,发动机30马力,螺旋桨转速1200转,性能优良。在旧金山举办的飞行比赛中,以65英里的时速一举夺冠,轻松打破当时的世界飞行记录,站在了世界飞行器设计和飞行表演的顶巅,惊得现场的许多外国人士目瞪口呆。原来一些人是带着看笑话的心绪观看冯如的飞机和飞行的,不料他碾压群雄,一举登顶。当地有报纸载文:“惊叹!中国人(冯如)发明的航空技术,超越了我们。”惊叹之余,不忘贬损一下“中国人”。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)