什么是大数据时代?

什么是大数据时代?,第1张

数据互联网发展到一定阶段的必然产物,由于互联网在资源整合方面的能力在不断增强,互联网本身必须通过数据来体现出自身的价值,所以从这个角度来看,大数据正在充当互联网价值的体现者。
随着更多的社会资源进行网络化和数据化改造,大数据所能承载的价值也必将不断提到提高,大数据的应用边界也会不断得到拓展,所以在未来的网络化时代,大数据自身不仅能够代表价值,大数据自身更是能够创造价值。
从互联网技术体系的角度来看,大数据正在成为推动整个互联网技术向前发展的重要推动力,一方面大数据通过数据价值化将全面促进物联网和云计算的发展,另一方面大数据也为人工智能的发展奠定了扎实的基础,正是由于大数据技术的发展,目前人工智能产品的落地应用效果得到了较为明显的提升。
从产业互联网的整体解决方案来看,大数据正在成为企业重要的生产材料之一,企业可以通过大数据来完成产品(服务)的设计、创新,同时基于大数据也能够全面赋能企业的运营管理,比如企业员工的价值化考核就是大数据一个重要的应用方向。
大数据目前正处在落地应用的初期,当前大数据产业链还需要进一步完善和发展,大数据自身所开辟的价值空间还有待于进一步发掘,可以从三个方面来进行深入,其一是大数据与行业应用的结合,可以从场景大数据分析入手;其二是大数据与物联网的深度结合;其三是大数据与人工智能技术的深度结合。
最后,大数据的落地应用不仅需要技术专家的参与,也需要行业专家的参与,行业专家对于大数据所能扮演的角色会起到决定性的作用,因为大数据本身并不是目的,大数据的应用才是最终的目的,而大数据最终能够扮演什么角色往往由应用者来决定。

大数据商业化:先谈隐私,再谈价值

不论我们称之为大数据时代、互联网时代,还是物联网时代、智能穿戴时代,它们之间都有一个共同的特征,就是信息数据化。当人与物都被数据化之后,就意味着巨大的商机蕴藏到了这些数据中间,而国务院所出台的这个关于大数据的指导意见也足以证明大数据的价值。
面对大数据所蕴含的巨大价值,我并不担心其商业价值挖掘不出来,担心的是如何把握好商业挖掘的尺寸与公民隐私权之间的关系。今天,大数据的商业化已经形成。当我们通过PC登录或者访问了相关的网站,浏览了某些信息的时候,我们在电脑上的这种行为都将被记录下来。当我们再次登录一些网站,打开相关页面的时候,一些“牛皮癣”广告就会被推送到我们的眼前。
那么,有谁在推送这些“牛皮癣”广告的时候征求过用户的意见追踪用户使用行为的商业挖掘边界到底在哪里这些问题或许比当前推动大数据商业挖掘来说更为重要。
首先,从目前的实际情况来看,大数据商业的前端很繁华,而商业后端的法律法规则相对滞后。过度的商业化挖掘,如果在没有相关隐私权保障的情况下发生,必然会招致用户的反感。那么,商家到底应该将数据商业化到什么程度,这个尺度如何把控,也就成为当前有关部门着重关注的焦点问题。
其次,对于企业来说,哪些数据是可以挖掘,哪些数据在商业化中是不能挖掘的;对于行政部门来说,什么部门可以拥有什么样的数据使用权限……这些都存在着关键尺度问题。如果相关法律法规和政策能够及时出台,那么公民隐私安全问题就可以缓解很多;反之,如果这个指导规范一直出不来,那么公民隐私就很危险了。
尤其是在智能穿戴时代的万物数据化之后,包括人的一切行为与生命体态特征都被数据化,网络安全、数据安全,就是摆在眼前最急迫、最重大的事情。可以预见,在进入智能穿戴时代,人与物,人与互联网之间的识别关系一定不是当前的这种数字密码,而是更为复杂的生物识别技术,如步态、静脉、视网膜、心率等,借助于可穿戴设备将人与设备连接、绑定在一起。由此通过人的生理特征识别后,建立一种唯一性的身份识别特征和独一无二的ID。
显然,这种识别特征的建议就相对比较安全,尤其是对于金融系统来说,未来的支付就很安全,一旦你的设备被偷了,离开你就自动失效了。深度数据化背后的商业价值将随之放大,而同时被放大的,还有数据安全风险。不过,我们不能因为大数据的安全存在风险,就让科技发展的脚步停下来。
我们需要谨慎地对待数据安全,但亦非谨小慎微。就像我们知道网络网银不安全,但我们还是会谨慎地用,此时对于银行等机构来说就是如何通过技术来最大限度地保障用户财产安全;我们知道美国q支泛滥,但很多人依然很“向往”美国,此时对于美国政府来说就是如何通过法律法规来杜绝这些案件的发生。
面对大数据也是如此,需要政府提高监管的水平和方式,尽可能地把犯罪的风险系数和危害降到一个合理的范围。当然社会上总有一些人想着赚歪门邪道、旁门左道的钱,这就是需要政府作为的问题,怎样有效控制。尽管目前我们还没有完全进入大数据时代,但相关的弊端、问题与安全风险已经或多或少地初露端倪。
随着国务院关于大数据文件的出台,一方面会加速大数据产业的形成,也必然会加速商业价值的挖掘。但是在这个过程中,我们尤其不能忽略了对公民隐私权的重视。所以,发展大数据产业很重要,但对于公民来说或许保护比挖掘更为重要。

以上是小编为大家分享的关于大数据商业化:先谈隐私,再谈价值的相关内容,更多信息可以关注环球青藤分享更多干货

早期进入人们生活的因特网,是庞大、错综的聚合体。它由彼此相连的服务器以及与服务器相连的专用设备(主要为个人电脑)聚合而成。但如今,全世界正开始过渡到一种全新的联接拓扑,即我们所说的“物联网”。今天,计算能力仍然由大量专用设备接管,其中也包括个人电脑。它们依托于从前因特网时代沿用至今的大量既定的,并且通常是碎片化的软件接口。计算能力以及计算机智能被分配到或者嵌入于各类设备,就像是在一个专供特定任务的岛屿之上。 虽然,越来越多的计算能力被分配到不同的智能设备上(即物联网中所谓的“物”),但是在不久前,它们仍以完全“无声”的方式使用。现在的智能设备包括移动装置、嵌入式系统、工业控制和车内系统,甚至在某些情况下还包括家庭电器。RFID(无线射频识别)以及GPS(全球定位系统)标签也能说明,在物联网,这些早期的静态对象也能被“激活”,并能够在无人干预下储存及传送与之相关的数据。但是到2020年,预计仍将有40亿人口以及超过310亿部设备在使用所谓的“因特网”。于是,物联网的出现绝非只是用各类信息将数字世界变得更为错综繁杂。当几乎所有的设备或对象都开始需要处理能力以及自动执行任务的能力时,并不能只对系统本身进行扩展,而是要做出巨大的变化。不管物联网以何种形式呈现,有一点是确定的,即它不但将会在广泛意义上改变计算的本质,而且也将给用户的期望和眼界带来改观,从而服务的方式,包括安全性等也必须加以准备。计算能力的转移人们最初得出的重要结论是这样的,将计算能力从某些既定的企业(包括供应商和客户)中转移到那些能够通过M2M(机器与机器对话)方式,在无需人工干预的情况下,使对象得到处理和互动,并能为其建立标准的企业。物联网拥有的潜力能够使之成为一个戏剧性的均分者,有一部分原因是尖端技术并不再仅限于大型企业,而且物联网还将减少这些企业对拓展的寻求。从某种意义上说,大型企业将面临最大的挑战。从商业的角度而言,我们认为自20世纪60年代开始,日本电器商在艰难中崛起并最终主导电器时代能够最好地体现物联网的效用。日本电器商同时也缔造了“物”的概念。“物”之本身不再具有盈利,所以下一代的成功商家将是那些能嵌入及连入智能,并以此投入市场的企业。在未来的十年,世界将以何种形式改变,我们刚刚做了一个构想。那么企业又将如何准备呢?瞬息万变中,又会带来哪些特定的问题? 大数据及云技术第一类挑战将是数据分析师以及供应商都会提及的“大数据”方面的问题,也就是说超大规模的潜在数据将需要被处理、储存并转移至各类“物”中,抑或由其转移而出。这体现的是一类分析方面的问题,尤其是关于M2M设备所生成的大量数据间的重要的组合方式,或者是关于这些数据的储存地点。“大数据”是一堆无限庞大的数据,而且从本质上,它们无时不刻地都在增量,让现有的科技黔驴技穷。从前因特网时代延续而来的独立储存系统根本无法在物理或者逻辑层面上满足这类储存需求,这些储存系统很快被拖垮。因此,云储存应运而生。但事实上,这仅仅是将问题踢给一群服务提供商,尔后还会产生各种新的问题。这些服务提供商需要达到怎样的标准才能满足数据的物理以及逻辑储存,并且在今后得以迁移至他处?他们又是是否能够符合规章制度以及隐私标准——然而这些制度或标准对于不同的国家,贸易体甚至行业通常会大相径庭。而“云服务”同样也带来一系列的安全问题,例如连接安全性将的验证、登入方式,以及怎样防止可能发生的故障。如果上述关于大数据的基本问题无法得到解决,物联网看上去就仿佛是一个“焦虑的因特网”,只要小小的故障就能导致巨大的后果。只有以确切的方法保护M2M系统不受这一连锁反应的危害,才不会减缓物联网在下一个十年中的推广。 英特尔智能系统框架诸如英特尔之类的公司辩称,唯一的生存之道应该是采用将一系列技术交织相联并以此为基石,而不是将那些技术分散并逐个建立。为此,智能系统框架(Intelligent Systems Framework,ISF)提供了多种解决方案,包括打造企业商品处理器,对所有装置初始状态的可管理性进行考量,以及确保这类基础设施将在(固定、无线或近场无线电式的)异构网路中运行。然而,该框架最具吸引力的地方还是它嵌入式安全的理念。企业迫切需要嵌入式安全,这并非是危言耸听,2010年Stuxnet病毒对工业控制技术方面的攻击就足以证明。系统此前从不被认为具有安全隐患的原因竟然是人们懒得对它们下手。但是,如果工业控制系统能够得到保护,是否充斥于物联网中的其他独立系统也能如此呢?解决上述问题的办法,就是将软件访问上一层级内容时所需的必要电路进行嵌入式处理,而非使用静态的手段对芯片加以保护。这就使得“可信化平台模组”应运而生。它可以对加密空间提供保护,使之能够储存“认证令牌“一类的数据,或者嵌入特定程序,让恶意软件无法对系统造成直接破坏。与软件服务套件一起嵌入的安全体系将为物联网的发展增添重要可能。同时,英特尔还是许多主动性解决方案的发起者。例如,由英特尔发起的“开放数据中心联盟”就旨在通过一系列大型企业及部分技术服务公司之间的合作,共同制定标准,将ISF的技术方案紧密衔接。规章和承诺数据保护开始慢慢变为国家级的或者超国家级(supra-national)政府或机构的重要功能之一。种种迹象表明,解决这些问题需要耗费本十年剩下的时间,甚至更长,并进而转变为一个全球化的体系。当越来越多的来自对象或“物”的数据在单个用户周围流动,个人隐私将显得愈发重要。这是由大数据引发的问题,也是各类组织在处理大数据时所要面对的。迄今为止,收集到的个人的数据还十分固定,例如姓名、住址以及社保账号等。但这些数据被交易的情况越来越多,因为它们与系统相联,能够推测并识别出何人在何时与何人做何事。不过现在讨论隐私问题可能并没有实际意义。因为大多数上传的数据是分散在不同的数据库间的,它们很快就会被删除。然而在大数据的经济原则“驱动”下,这些数据碎片最终会被整合,因此如何监管私人数据将是政治性的问题。人们常常假设,物联网将由自由市场以充满竞争却亦十分融洽的方式建立,看来它的雏形将通过政府、约定、或协议条款形成。政府也一定会从大数据中捞到好处,的确,最具争议的方面是各国寻求挖掘关于子民生活习惯和生活圈数据的方式。因此,大数据的未来也极具争议。立法规模多大才可能影响商业?欧盟的《数据保护指令》便是一个很好的例子。当下,该指令主要关注了一些十分重要的子议题,以此改进违反数据隐私的通知。这些跨国章程将以类似的限定方式对物联网上收集到的或者泄露的数据加以制约,成为具有实际意义的标准。此外,部分组织也将能知悉,当特殊利益集团或个人想要考验法律的底线时,法院对此的忍耐限度究竟有多大。公司必须准备好应对复杂多变的情况,比如说要允许个人用户以某种方式选择退出,而该方式可能体现的是数据过剩时代的主要挑战。结论总之,尚未有简单的安全解决方案来应对上述问题。组成物联网的所有对象将会含有嵌入式安全系统。人们将使用实时分析处理对象产生的数据,从以自动化的方式对其进行管理。这种管理将是无人干预的,除非某些阈限被攻破。政府将会同时寻求数据接入以及引入“杀毒开关”,这能减少设备因经济或政治利益而受到的潜在攻击。不管企业现在是否涉及这一事实,物联网时代总会以这样或那样的形式来临。忽略物联网会改变组织以及他们所服务的顾客和市民,将是巨大的错误。同样,假设物联网会以互联网曾经的方式发展也是愚蠢的。在崭新的世界,政府、顾客以及市民都将受到积极的影响。 更多

大数据技术发展史:大数据的前世今生

今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。

你知道,搜索引擎主要就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的,你从介绍中也能看出来,一个文件系统、一个计算框架、一个数据库系统。

现在你听到分布式、大数据之类的词,肯定一点儿也不陌生。但你要知道,在2004年那会儿,整个互联网还处于懵懂时代,Google发布的论文实在是让业界为之一振,大家恍然大悟,原来还可以这么玩。

因为那个时间段,大多数公司的关注点其实还是聚焦在单机上,在思考如何提升单机的性能,寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有机器进行数据计算。 这样,Google其实不需要买很多很贵的服务器,它只要把这些普通的机器组织到一起,就非常厉害了。

当时的天才程序员,也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch,阅读了Google的论文后,他非常兴奋,紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。

两年后的2006年,Doug Cutting将这些大数据相关的功能从Nutch中分离了出来,然后启动了一个独立的项目专门开发维护大数据技术,这就是后来赫赫有名的Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。

当我们回顾软件开发的历史,包括我们自己开发的软件,你会发现,有的软件在开发出来以后无人问津或者寥寥数人使用,这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业,每年创造数百亿美元的价值,创造百万计的就业岗位,这些软件曾经是Windows、Linux、Java,而现在这个名单要加上Hadoop的名字。

如果有时间,你可以简单浏览下Hadoop的代码,这个纯用Java编写的软件其实并没有什么高深的技术难点,使用的也都是一些最基础的编程技巧,也没有什么出奇之处,但是它却给社会带来巨大的影响,甚至带动一场深刻的科技革命,推动了人工智能的发展与进步。

我觉得,我们在做软件开发的时候,也可以多思考一下,我们所开发软件的价值点在哪里?真正需要使用软件实现价值的地方在哪里?你应该关注业务、理解业务,有价值导向,用自己的技术为公司创造真正的价值,进而实现自己的人生价值。而不是整天埋头在需求说明文档里,做一个没有思考的代码机器人。

Hadoop发布之后,Yahoo很快就用了起来。大概又过了一年到了2007年,百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。

2008年,Hadoop正式成为Apache的顶级项目,后来Doug Cutting本人也成为了Apache基金会的主席。自此,Hadoop作为软件开发领域的一颗明星冉冉升起。

同年,专门运营Hadoop的商业公司Cloudera成立,Hadoop得到进一步的商业支持。

这个时候,Yahoo的一些人觉得用MapReduce进行大数据编程太麻烦了,于是便开发了Pig。Pig是一种脚本语言,使用类SQL的语法,开发者可以用Pig脚本描述要对大数据集上进行的 *** 作,Pig经过编译后会生成MapReduce程序,然后在Hadoop上运行。

编写Pig脚本虽然比直接MapReduce编程容易,但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算,比如说你可以写个Select语句进行数据查询,然后Hive会把SQL语句转化成MapReduce的计算程序。

这样,熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度,迅速得到开发者和企业的追捧。据说,2011年的时候,Facebook大数据平台上运行的作业90%都来源于Hive。

随后,众多Hadoop周边产品开始出现,大数据生态体系逐渐形成,其中包括:专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop;针对大规模日志进行分布式收集、聚合和传输的Flume;MapReduce工作流调度引擎Oozie等。

在Hadoop早期,MapReduce既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理由MapReduce自己完成。但是这样不利于资源复用,也使得MapReduce非常臃肿。于是一个新项目启动了,将MapReduce执行引擎和资源调度分离开来,这就是Yarn。2012年,Yarn成为一个独立的项目开始运营,随后被各类大数据产品支持,成为大数据平台上最主流的资源调度系统。

同样是在2012年,UC伯克利AMP实验室(Algorithms、Machine和People的缩写)开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差,因为机器学习算法通常需要进行很多次的迭代计算,而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业,带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质,而2012年的时候,内存已经突破容量和成本限制,成为数据运行过程中主要的存储介质。Spark一经推出,立即受到业界的追捧,并逐步替代MapReduce在企业应用中的地位。

一般说来,像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算,因为它们通常针对以“天”为单位产生的数据进行一次计算,然后得到需要的结果,这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据,而是历史数据,所以这类计算也被称为大数据离线计算。

而在大数据领域,还有另外一类应用场景,它们需要对实时产生的大量数据进行即时计算,比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算,相应地,有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。 流式计算要处理的数据是实时在线产生的数据,所以这类计算也被称为大数据实时计算。

在典型的大数据的业务场景下,数据业务最通用的做法是,采用批处理的技术处理历史全量数据,采用流式计算处理实时新增数据。而像Flink这样的计算引擎,可以同时支持流式计算和批处理计算。

除了大数据批处理和流处理,NoSQL系统处理的主要也是大规模海量数据的存储与访问,所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆,涌现出HBase、Cassandra等许多优秀的产品,其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

我们回顾软件发展的历史会发现,差不多类似功能的软件,它们出现的时间都非常接近,比如Linux和Windows都是在90年代初出现,Java开发中的各类MVC框架也基本都是同期出现,Android和iOS也是前脚后脚问世。2011年前后,各种NoSQL数据库也是层出不群,我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。

事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。

但是时代的浪潮犹如海滩上的浪花,总是一浪接着一浪,只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而又深刻地去观察,略去那些浮躁的泡沫,抓住真正潮流的机会,奋力一搏,不管成败,都不会遗憾。

正所谓在历史前进的逻辑中前进,在时代发展的潮流中发展。通俗的说,就是要在风口中飞翔。

上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成;数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等,内置了主要的机器学习和数据挖掘算法。

此外,大数据要存入分布式文件系统(HDFS),要有序调度MapReduce和Spark作业执行,并能把执行结果写入到各个应用系统的数据库中,还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。

图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系,我将会在专栏后面逐个分析,帮你能够对大数据技术原理和应用算法构建起完整的知识体系,进可以专职从事大数据开发,退可以在自己的应用开发中更好地和大数据集成,掌控自己的项目。

希望对您有所帮助!~


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/13163669.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-14
下一篇 2023-06-14

发表评论

登录后才能评论

评论列表(0条)

保存