1993年,美国政府宣布实施一项新的高科技计划——“国家信息基础设施”,旨在以因特网为雏形,兴建信息时代的高速公路——“信息高速公路”,使所有的美国人方便地共享海量的信息资源。这一计划的提出,导致美国信息产业高速发展,进入了以网络经济为主导的新经济时代,创造了巨大的经济效益和社会效益。如今面对来势凶猛的金融危机,美国的经济社会发展面临着前所未有的挑战,亟需一个全新的经济增长点拉动经济走出低谷并再次迎接长时间的繁荣。由此,物联网战略——“智慧的地球”应运而生。
2008年的时候IBM提出了智慧地球的计划,该计划的核心就是物联网。物联网具备极其广泛的行业覆盖度以及影响力。物联网的发展不仅能促进新兴信息技术产业的发展,而且还能带动诸如智能能源、智能运输、智能医疗等诸多传统行业的发展。将物联网技术引入家庭生活,还能带来智能家居。由于物联网能够全面改善居民生活水平,提高整个经济社会的运转效率,因此物联网的发展被称为是继计算机、互联网之后,世界信息产业发展的第三次浪潮。
今天,“智慧地球”战略被美国人认为与当年的“信息高速公路”有许多相似之处,同样被他们认为是振兴经济、确立竞争优势的关键战略。该战略能否掀起如当年互联网革命一样的科技和经济浪潮,为世界所瞩目。
二、“智慧城市”的研究现状
智慧城市的概念
·数字城市与物理城市
数字城市存在于网络空间(cyber space)中,虚拟的数字城市与现实的物理城市相互映射,是现实生活的物理城市在网络世界中的一个数字再现(Li Deren&Yao Yuan&Shao Zhenfeng&et al,2014)
·智慧城市定义
图“智慧城市”研究的相关知识点
智慧城市则是建立在数字城市的基础框架上,通过无所不在的 传感网 将它与现实城市关联起来,将 海量数据 存储、计算、分析和决策交由 云计算 平台处理,并按照分析决策结果对各种设施进行 自动化的控制 。(Li Deren&Shan Jie&Shao Zhenfeng et al,2013)
即, 智慧城市=物联网+大数据+云计算 。
(李德仁,姚远,邵振峰,2014)
智慧城市的建设历程
图国内外智慧城市建设历程
(王广斌,张雷,刘洪磊,2013)
三、物联网在智慧城市中的行业应用
1在民生领域中的应用。民生大数据包括有人口、环境、交通、健康、经济等数据。
2在市场监管领域的应用。可以挖掘技术来分析不同变化的市场数据,以便于相关部门及时的对市场变化做出相应的反应,提高对于未来实践的准确预警度,实时进行监管。
3在政府服务领域的应用。可以共享帮助政府的各个部门间或政府与市民间形成信息共享。
4在基础设施领域的应用。可以更加方便对交通和电力等设施进行数据的采集和分析,能够更加完善的促进城市基础设施建设。
“民生”一直以来都是全球物联网市场与中国本土发展最重要的切入点。居家养老、科技农业、食品追溯、车联网等一批围绕民生开展的应用正日趋成熟。
例:
1 比如一个产品“伴”系统。通过一个传感器、一块大垫子,就可以监控家中老人的身体状况,并作出判断是否需要通知子女或社区医生。通过垫在床脚处的传感器,远程监控中心可以发现老人生理数据上的异动,如心跳、血压发生大的变化,则在远端预警。服务中心可就此发出指令,或联系子女,或联系街道以提供帮助。而另一块铺在地上的大垫子则能察觉老人是否跌倒。通过跌倒在地上的姿势、卧地时间长度等数据,可以判断是不是出了意外。这一套系统已在上海一些社区试点。
2 近年来,从毒豇豆、地沟油、瘦肉精,到漂白蘑菇、化学火锅……面对频发的食品安全事件,不禁想问,吃什么才是安全的?企业物该如何重拾消费者信任?联网技术可以作为一个全面管控体系,可以从源头上把控风险。
比如餐厨垃圾中的油脂排放到采用物联网技术的专用油桶中,通过互联网自动将油脂数量、时间、地点等信息上传至监管系统,运输车辆采用GPS跟踪路径,轨迹信息同样上传至监管系统……通过大数据技术,当发现GPS轨迹信息、油桶身份信息等数据异常时,系统会及时提醒监管部门处理。
3 美国调研公司曾调查超过600名来自教育和IT行业的领袖,其中将近一半的人相信,在未来两年内,物联网技术将会改变学生们在校园的学习方式。
具体看,智慧校园是把感应器嵌入和装备到食堂、教室、图书馆、供水系统、实验室等各种物体中,并且被普遍连接,形成“物联网”,然后将“物联网”与现有的互联网整合起来,实现教学、生活与校园资源和系统的整合。
比如流媒体视频课程和数据分析可以帮助教师跟踪学生的学习情况,根据他们的能力水平定制教学内容,以及预测学生的执行情况。
4 物联网技术在医疗领域的应用潜能同样巨大。普遍认为,未来20年内将迎来人工智能诊疗的时代。
例如儿科部会记录早产儿和患病婴儿的每一次心跳,然后将这些数据与历史数据相结合。基于这些分析,系统可以在婴儿表现出任何明显的症状之前就检测到感染,这使得医生可以早期干预和治疗。
远程医疗监护也在兴起。利用物联网技术,构建以患者为中心,基于危急重病患的远程会诊和持续监护服务体系。可以减少患者进医院和诊所的次数。
四、物联网中大数据的价值与痛点
物联网简单来说,其实就是利用互联网把现实中的所有物品利用传感器连接起来,在这个基础上会产生大量的数据。而如何从这些数据中挖掘出有用的信息,充分利用这份资源,才是最具难度和价值的。
比如监测老年人身体健康的数据,除了应用于通知子女和社区医生,还可提供给医疗机构、养老机构等。甚至可以运用这份数据,针对每位老人制定相应的养老计划。
监测食品安全的数据也是如此。除了提供给政府方便监管以外,还可以提供给餐饮机构。将后厨的信息、食材履历、厨余去向等信息在互联网平台展示,让消费者通过互联网随时走进企业。一份数据,可以同时起到监控、管理、宣传三大功能。
数据的价值是强大的。SNS霸主Facebook就将他拥有的海量用户数据玩的非常漂亮。Facebook可以知道你什么时候跟别人约会,什么时候分手。就在今年情人节后第三天,Facebook通过其开发博客公布了其数据研究部门科学家团队的一项发现,即利用Facebook网站的统计数据,可以判断发帖的用户是否、何时擦出了爱的火花。
活跃用户规模已达到27亿的Facebook掌握了数以亿计的用户信息。使用一定的模型,可以从这些数据中挖掘出无限有趣的信息。比如新的感情开始时人们最喜欢的音乐、最喜欢的商品等等。
随着物联网技术的不断进化,智慧城市的不断快速发展,各种大数据也在不断被人们所发现,并应用实际中。所以需要同步发展的是数据挖据、决策分析的能力。将大数据转化为数据资产,将智慧城市建设成智能化、互联化的城市。
大数据技术发展史:大数据的前世今生
今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。
你知道,搜索引擎主要就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的,你从介绍中也能看出来,一个文件系统、一个计算框架、一个数据库系统。
现在你听到分布式、大数据之类的词,肯定一点儿也不陌生。但你要知道,在2004年那会儿,整个互联网还处于懵懂时代,Google发布的论文实在是让业界为之一振,大家恍然大悟,原来还可以这么玩。
因为那个时间段,大多数公司的关注点其实还是聚焦在单机上,在思考如何提升单机的性能,寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有机器进行数据计算。 这样,Google其实不需要买很多很贵的服务器,它只要把这些普通的机器组织到一起,就非常厉害了。
当时的天才程序员,也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch,阅读了Google的论文后,他非常兴奋,紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。
两年后的2006年,Doug Cutting将这些大数据相关的功能从Nutch中分离了出来,然后启动了一个独立的项目专门开发维护大数据技术,这就是后来赫赫有名的Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。
当我们回顾软件开发的历史,包括我们自己开发的软件,你会发现,有的软件在开发出来以后无人问津或者寥寥数人使用,这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业,每年创造数百亿美元的价值,创造百万计的就业岗位,这些软件曾经是Windows、Linux、Java,而现在这个名单要加上Hadoop的名字。
如果有时间,你可以简单浏览下Hadoop的代码,这个纯用Java编写的软件其实并没有什么高深的技术难点,使用的也都是一些最基础的编程技巧,也没有什么出奇之处,但是它却给社会带来巨大的影响,甚至带动一场深刻的科技革命,推动了人工智能的发展与进步。
我觉得,我们在做软件开发的时候,也可以多思考一下,我们所开发软件的价值点在哪里?真正需要使用软件实现价值的地方在哪里?你应该关注业务、理解业务,有价值导向,用自己的技术为公司创造真正的价值,进而实现自己的人生价值。而不是整天埋头在需求说明文档里,做一个没有思考的代码机器人。
Hadoop发布之后,Yahoo很快就用了起来。大概又过了一年到了2007年,百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。
2008年,Hadoop正式成为Apache的顶级项目,后来Doug Cutting本人也成为了Apache基金会的主席。自此,Hadoop作为软件开发领域的一颗明星冉冉升起。
同年,专门运营Hadoop的商业公司Cloudera成立,Hadoop得到进一步的商业支持。
这个时候,Yahoo的一些人觉得用MapReduce进行大数据编程太麻烦了,于是便开发了Pig。Pig是一种脚本语言,使用类SQL的语法,开发者可以用Pig脚本描述要对大数据集上进行的 *** 作,Pig经过编译后会生成MapReduce程序,然后在Hadoop上运行。
编写Pig脚本虽然比直接MapReduce编程容易,但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算,比如说你可以写个Select语句进行数据查询,然后Hive会把SQL语句转化成MapReduce的计算程序。
这样,熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度,迅速得到开发者和企业的追捧。据说,2011年的时候,Facebook大数据平台上运行的作业90%都来源于Hive。
随后,众多Hadoop周边产品开始出现,大数据生态体系逐渐形成,其中包括:专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop;针对大规模日志进行分布式收集、聚合和传输的Flume;MapReduce工作流调度引擎Oozie等。
在Hadoop早期,MapReduce既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理由MapReduce自己完成。但是这样不利于资源复用,也使得MapReduce非常臃肿。于是一个新项目启动了,将MapReduce执行引擎和资源调度分离开来,这就是Yarn。2012年,Yarn成为一个独立的项目开始运营,随后被各类大数据产品支持,成为大数据平台上最主流的资源调度系统。
同样是在2012年,UC伯克利AMP实验室(Algorithms、Machine和People的缩写)开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差,因为机器学习算法通常需要进行很多次的迭代计算,而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业,带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质,而2012年的时候,内存已经突破容量和成本限制,成为数据运行过程中主要的存储介质。Spark一经推出,立即受到业界的追捧,并逐步替代MapReduce在企业应用中的地位。
一般说来,像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算,因为它们通常针对以“天”为单位产生的数据进行一次计算,然后得到需要的结果,这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据,而是历史数据,所以这类计算也被称为大数据离线计算。
而在大数据领域,还有另外一类应用场景,它们需要对实时产生的大量数据进行即时计算,比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算,相应地,有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。 流式计算要处理的数据是实时在线产生的数据,所以这类计算也被称为大数据实时计算。
在典型的大数据的业务场景下,数据业务最通用的做法是,采用批处理的技术处理历史全量数据,采用流式计算处理实时新增数据。而像Flink这样的计算引擎,可以同时支持流式计算和批处理计算。
除了大数据批处理和流处理,NoSQL系统处理的主要也是大规模海量数据的存储与访问,所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆,涌现出HBase、Cassandra等许多优秀的产品,其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。
我们回顾软件发展的历史会发现,差不多类似功能的软件,它们出现的时间都非常接近,比如Linux和Windows都是在90年代初出现,Java开发中的各类MVC框架也基本都是同期出现,Android和iOS也是前脚后脚问世。2011年前后,各种NoSQL数据库也是层出不群,我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。
事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。
但是时代的浪潮犹如海滩上的浪花,总是一浪接着一浪,只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而又深刻地去观察,略去那些浮躁的泡沫,抓住真正潮流的机会,奋力一搏,不管成败,都不会遗憾。
正所谓在历史前进的逻辑中前进,在时代发展的潮流中发展。通俗的说,就是要在风口中飞翔。
上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成;数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等,内置了主要的机器学习和数据挖掘算法。
此外,大数据要存入分布式文件系统(HDFS),要有序调度MapReduce和Spark作业执行,并能把执行结果写入到各个应用系统的数据库中,还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。
图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系,我将会在专栏后面逐个分析,帮你能够对大数据技术原理和应用算法构建起完整的知识体系,进可以专职从事大数据开发,退可以在自己的应用开发中更好地和大数据集成,掌控自己的项目。
希望对您有所帮助!~
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)