大数据的存在让淘宝、广告、信息流等的推荐更加算法化。数据可以去猜人的喜好、洞悉用户的方方面面,人们作为个体在大数据面前没有秘密。大数据对市场的把控、疫病的分析、经济的解读等各方面存在影响。
物联网,顾名思义,万物物联。人们可以控制冰冷的机器设备,一切都变得智能化起来,车可以自动驾驶,空调可以用手机打开,灯光可以语音调节等等。
人工智能是给机器赋予了机器“语言”,深度学习,通过编程让机器有了类似“人”的功能。比如通过代码的输入,机器可以和人进行简单的语言交流,替人类工作等等大数据时代的用户数据如何区别保护
大数据时代,是物联网的时代,随着云存储和云计算的发展,以智能手机、智能家电、可穿戴设备为代表的智能终端的普及,通过各种智能终端上传和收集的用户数据将越来越多,对用户数据的分析和挖掘及利用,将是大数据的商业价值所在,蕴藏和巨大价值的用户数据的性质及使用规则是我们值得思考的问题。
用户数据的“区分所有权”构想
提到用户数据,我们首先想到的是用户的“隐私权”。民法大家王利明教授在其主编的《人格权法新论》一书中提到:隐私权是自然人享有的对其个人的与公共利益无关的个人信息、私人活动和私有领域进行支配的一种人格权。可见隐私权是一项“个体”权益,强调权利的身份和人格的属性。
用户数据的商业价值核心并不是“个人”的人格权益,其必要条件是具备足够多的用户个体样本,其更强调“集合”的权利,单个用户数据的商业价值是有限的。而用户数据的核心价值在于通过对云端存储的海量的用户个人状况、行为、需求的样本分析和挖掘,一方面为上游硬件商提供产品的开发依据,另一方面对用户的消费、生活提供“量身打造”的服务,从而形成物联网的全产业链循环,实现更高效的管理社会资源并创造更多的价值。
可见,虽然用户数据来源于“个体”数据,但最终使社会获益的是用户的“集合”数据。因此,在界定用户数据的性质方面,笔者建议根据单个数据是否具有身份属性,将用户数据分为身份数据和样本数据,并对这两类数据加以区别保护。
用户的身份数据是指可以通过单一的个体数据,即能锁定特定用户的数据。如姓名、身份z号、各种账号信息、等。比如我们通过一个电话,就能联系到一个特定的用户。因此,此类信息具有较强的身份属性,须定义为“隐私权”的范围,其权利主体应为用户个人所有,其使用和经营,须经过用户的许可,否则将被判定为侵权。现行法律法规如《全国人民代表大会常务委员会关于加强网络信息保护的决定》、工信部出台的《电信和互联网用户个人信息保护规定》以及消费者权益保护法、《网络交易管理办法》中规定的个人信息,当属于用户的身份数据范畴。
样本数据是指通过个体数据汇聚成的用户个人状况、行为、需求的数据库以及通过分析和挖掘以上数据获得的相关数据。此类数据的所有权应为用户和数据收集方共有,但经营使用权建议应掌握在能够发挥其价值的数据收集者手中。将所有权和经营权区分开来,既能从法律上保证用户的个体权益,又符合经济学的原理。
样本数据的经营规则
用户身份数据的使用规则可以依据现有的法律法规执行。我们仅需要通过立法明确以上法律所适用的数据的范围,并在执行层面的政策上制定可 *** 作的保护用户身份数据和隐私权的规章制度。
对于样本数据的使用和经营规则,现有法律并没有明确依据。根据上文的阐述,笔者已将其所有权拟定为用户和数据收集者共有,经营使用权则建议应掌握在能够发挥其价值的数据收集者手中。这样设计的目的在于,一是保留用户的“被遗忘权”;二是发挥物尽其用的作用。
首先,保留用户的“被遗忘权”是用户数据使用的基础。
大数据时代到来,人们最担心的是自己将被暴露得一览无余,没有隐私可言。因此,个体信息是否公开,公开的程度,需要个体能够掌控,即用户自主决定其向外界公开的个人信息的广度和深度,也可随时自行或要求收集数据方,删除其掌握的任何关于用户个体的数据。用户要求收集者删除其样本信息时,须提供可以辨识其个体信息的依据(一般须为身份信息),以证明其要求删除的信息是属于自己的样本信息。
其次,数据收集者在收集样本数据时,须向用户群体公示其收集途径和方式,以及用户删除自己样本信息的途径和方法。只有这样,用户才能知晓其被收集者收集的数据是什么,以及自己的样本信息被经营者使用的状况是否安全,从而判断其是否愿意继续使用数据收集者的产品,并将自己的样本信息交给数据收集者经营。一旦用户选择使用某一数据收集者的产品,数据收集者将与用户共有其收集的用户样本数据。
第三,数据收集者在遵守法律对用户隐私保护前提下,无需用户授权,可自由地使用和经营其收集到的用户的样本数据,直至用户自行或要求其删除样本数据。
当前,各数据收集者之间进行不同程度的共享和授权数据的需求已是大数据的发展趋势。云与云的互联互通才能使数据样本变得足够庞大,使数据分析和挖掘的结果更有价值,使用户不同智能终端之间的连接变得可能,从而真正的实现大数据的物联网。
样本数据的共享和授权中涉及到大量个体信息,如果用户此类活动需要经过个体用户的授权,将会极大地阻碍商业效率,其数据和信息的收集是随时随地的,要求单个用户对单个的样本授权,也会影响用户的体验。因此最现实的方式是数据的收集者在经营和使用其收集的数据时,无需个体用户的单独授权。
最后,数据收集者通过样本数据所获取的收益,个体用户须有分配权。
个体用户对数据经营的收益分配权容易理解。数据的源头是个体,个体是样本数据的所有者,因此其理所应当得到经营数据的利益。分配的方式和数量可由数据收集者确定并公示,一旦用户使用特定数据收集者的产品,即表明其同意以此对价获取收益。当然,用户领取收益的前提是提供可以辨识其个体信息的依据(一般须为身份信息),以证明其是对应个体样本数据的提供者。
大数据技术发展史:大数据的前世今生
今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。
你知道,搜索引擎主要就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的,你从介绍中也能看出来,一个文件系统、一个计算框架、一个数据库系统。
现在你听到分布式、大数据之类的词,肯定一点儿也不陌生。但你要知道,在2004年那会儿,整个互联网还处于懵懂时代,Google发布的论文实在是让业界为之一振,大家恍然大悟,原来还可以这么玩。
因为那个时间段,大多数公司的关注点其实还是聚焦在单机上,在思考如何提升单机的性能,寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有机器进行数据计算。 这样,Google其实不需要买很多很贵的服务器,它只要把这些普通的机器组织到一起,就非常厉害了。
当时的天才程序员,也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch,阅读了Google的论文后,他非常兴奋,紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。
两年后的2006年,Doug Cutting将这些大数据相关的功能从Nutch中分离了出来,然后启动了一个独立的项目专门开发维护大数据技术,这就是后来赫赫有名的Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。
当我们回顾软件开发的历史,包括我们自己开发的软件,你会发现,有的软件在开发出来以后无人问津或者寥寥数人使用,这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业,每年创造数百亿美元的价值,创造百万计的就业岗位,这些软件曾经是Windows、Linux、Java,而现在这个名单要加上Hadoop的名字。
如果有时间,你可以简单浏览下Hadoop的代码,这个纯用Java编写的软件其实并没有什么高深的技术难点,使用的也都是一些最基础的编程技巧,也没有什么出奇之处,但是它却给社会带来巨大的影响,甚至带动一场深刻的科技革命,推动了人工智能的发展与进步。
我觉得,我们在做软件开发的时候,也可以多思考一下,我们所开发软件的价值点在哪里?真正需要使用软件实现价值的地方在哪里?你应该关注业务、理解业务,有价值导向,用自己的技术为公司创造真正的价值,进而实现自己的人生价值。而不是整天埋头在需求说明文档里,做一个没有思考的代码机器人。
Hadoop发布之后,Yahoo很快就用了起来。大概又过了一年到了2007年,百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。
2008年,Hadoop正式成为Apache的顶级项目,后来Doug Cutting本人也成为了Apache基金会的主席。自此,Hadoop作为软件开发领域的一颗明星冉冉升起。
同年,专门运营Hadoop的商业公司Cloudera成立,Hadoop得到进一步的商业支持。
这个时候,Yahoo的一些人觉得用MapReduce进行大数据编程太麻烦了,于是便开发了Pig。Pig是一种脚本语言,使用类SQL的语法,开发者可以用Pig脚本描述要对大数据集上进行的 *** 作,Pig经过编译后会生成MapReduce程序,然后在Hadoop上运行。
编写Pig脚本虽然比直接MapReduce编程容易,但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算,比如说你可以写个Select语句进行数据查询,然后Hive会把SQL语句转化成MapReduce的计算程序。
这样,熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度,迅速得到开发者和企业的追捧。据说,2011年的时候,Facebook大数据平台上运行的作业90%都来源于Hive。
随后,众多Hadoop周边产品开始出现,大数据生态体系逐渐形成,其中包括:专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop;针对大规模日志进行分布式收集、聚合和传输的Flume;MapReduce工作流调度引擎Oozie等。
在Hadoop早期,MapReduce既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理由MapReduce自己完成。但是这样不利于资源复用,也使得MapReduce非常臃肿。于是一个新项目启动了,将MapReduce执行引擎和资源调度分离开来,这就是Yarn。2012年,Yarn成为一个独立的项目开始运营,随后被各类大数据产品支持,成为大数据平台上最主流的资源调度系统。
同样是在2012年,UC伯克利AMP实验室(Algorithms、Machine和People的缩写)开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差,因为机器学习算法通常需要进行很多次的迭代计算,而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业,带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质,而2012年的时候,内存已经突破容量和成本限制,成为数据运行过程中主要的存储介质。Spark一经推出,立即受到业界的追捧,并逐步替代MapReduce在企业应用中的地位。
一般说来,像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算,因为它们通常针对以“天”为单位产生的数据进行一次计算,然后得到需要的结果,这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据,而是历史数据,所以这类计算也被称为大数据离线计算。
而在大数据领域,还有另外一类应用场景,它们需要对实时产生的大量数据进行即时计算,比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算,相应地,有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。 流式计算要处理的数据是实时在线产生的数据,所以这类计算也被称为大数据实时计算。
在典型的大数据的业务场景下,数据业务最通用的做法是,采用批处理的技术处理历史全量数据,采用流式计算处理实时新增数据。而像Flink这样的计算引擎,可以同时支持流式计算和批处理计算。
除了大数据批处理和流处理,NoSQL系统处理的主要也是大规模海量数据的存储与访问,所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆,涌现出HBase、Cassandra等许多优秀的产品,其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。
我们回顾软件发展的历史会发现,差不多类似功能的软件,它们出现的时间都非常接近,比如Linux和Windows都是在90年代初出现,Java开发中的各类MVC框架也基本都是同期出现,Android和iOS也是前脚后脚问世。2011年前后,各种NoSQL数据库也是层出不群,我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。
事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。
但是时代的浪潮犹如海滩上的浪花,总是一浪接着一浪,只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而又深刻地去观察,略去那些浮躁的泡沫,抓住真正潮流的机会,奋力一搏,不管成败,都不会遗憾。
正所谓在历史前进的逻辑中前进,在时代发展的潮流中发展。通俗的说,就是要在风口中飞翔。
上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成;数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等,内置了主要的机器学习和数据挖掘算法。
此外,大数据要存入分布式文件系统(HDFS),要有序调度MapReduce和Spark作业执行,并能把执行结果写入到各个应用系统的数据库中,还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。
图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系,我将会在专栏后面逐个分析,帮你能够对大数据技术原理和应用算法构建起完整的知识体系,进可以专职从事大数据开发,退可以在自己的应用开发中更好地和大数据集成,掌控自己的项目。
希望对您有所帮助!~
未来大数据改变行业状况
2015年8月6日,由中国电子信息行业联合会主办,奥维云网(AVC)承办的“2015中国互联网+创新大会”在北京成功举办。本次大会围绕“互联网+时代信息消费产业的发展新模式、新思路”等主题展开智慧讨论,不仅有政府部门相关领导、行业专家、学者与会,还吸引信息消费领域的相关企业积极参与。
互联网思维,从经验决策到数据决策
随着互联网、移动互联网、物联网、云计算等技术的快速发展,数据已全面融入到各个产业,标志着大数据30时代的到来。正如奥维云网(AVC)首席技术官巫新宇会上提出:“大数据时代,企业发展开始从经验决策到数据决策的转变”。
大数据,可以说是史上第一次将各行各业的用户、方案提供商、服务商、运营商以及整个生态链上游厂商,融入到一个大的环境中,无论是企业级市场还是消费级市场,还是政府公共服务,都正或将要与大数据发生千丝万缕的联系。
奥维云网(AVC)基于用户需求和用户体验,专注于智慧家庭领域,以开放式大数据平台为核心资源,整合全产业链数据体系,从社交媒介,企业自身,智能硬件等多方面出发,搭建大数据资源平台和大数据运营能力平台,构成奥维云网(AVC)所倡导的大数据研究模式。集商业理解、数据采集、分析处理、储存计算为一体的大数据服务体系,借助专业的分析结果,从传统的经验决策、一言堂转化为科学的数据决策,为企业精准营销,商业智能决策提供可落地和有效的大数据应用服务。
“大数据研究模式有望颠覆现有咨询行业的运行模式,同时开辟一个数百亿乃至上千亿的市场新蓝海。” 巫新宇对大数据研究模式信心满满。
2015智能化个人终端发展趋势
软件与移动智能终端硬件的相互促进、相互推动,人机交互、移动 *** 作系统、语音智能等技术的接连突破,可穿戴智能设备正在形成一股新的市场潮流。根据奥维云网(AVC)数据监测显示:智能手机销量呈快速上升趋势,2014年销量为42116万台,2015年有望达到48138万台,预计到2016年可达53819万台 。预计到2016年,市场规模会增到228亿以上。
奥维云网(AVC)副总裁刘闯在会上表示:随着智能手机及智能可穿戴设备的发展和网络平台的进一步完善,智能手机和可穿戴设备是数据终端收集装置,可以长时间连续不间断的采集用户使用过程中产生的数据;然后将数据上传到云端,通过大数据分析,可以更好的发现用户的关键特征,为用户提供量身打造的意见和建议,可以进一步提升用户对于终端设备和软件设备的使用黏性,利用互联网大数据、云服务,互联网企业可以打造开放的数据平台和生态平台,将产品很好的融合在一起形成大生态环境。
未来移动智能终端的形态、功能和性能都具有无限可能性。目前,可穿戴设备和手机仍是主要的智能终端,各大手机品牌商和可穿戴设备企业更是绞尽脑汁参与对智能硬件市场的竞争中。
“截至2015年6月,我国手机网民规模达594亿,较2014年12月增加3679万人,网民中使用手机上网的人群占比由2014年12月的858%提升至889%,通过台式电脑、笔记本电脑和平板电脑接入互联网的比例均有下降。随着手机终端的大屏化和手机应用体验的不断提升,网民上网设备逐渐向手机端集中。手机和可穿戴市场仍有巨大发展空间。”中国互联网络信息中心副主任刘冰在发言中表示。
信息消费产业迎来爆发式增长
互联网+、工业40、外贸新政等利好政策下,物联网、云计算、大数据等信息技术的加速渗透,培育了移动互联网、跨境电商、农村电商、智慧城市等新的信息消费热点,有望成为推动经济转型的新引擎。
“信息消费产业迎来爆发式增长,预计2015年信息消费规模将超过32万亿元,较2014年将增长20%以上。信息消费市场商机无限,引发行业更加激烈的竞争,智能电视作为电子信息的显示窗口,在互联网+时代,企业纷纷转型升级”,中国电子信息行业联合会执行秘书长高素梅表示。
国家发展改革委员会学术委员会秘书长张燕生表示:“一带一路”战略实施,把市场从中国视野推向全球视野,信息消费蕴含巨大市场潜力。不仅可以推动国内的市场消费,还可以拉动全球经济增长。
据中国互联网络信息中心副主任刘冰透露,截至2015年6月,我国互联网普及率为488%,网民规模达668 亿,其中,手机网民规模达594亿,网民中使用手机上网的人群占达到889%,呈高速增长态势。手机网民的激增,必然会给移动消费带来更多的用户,其中信息消费也会呈现爆发式增长。
未来大数据改变行业状况
正是看到互联网、大数据、信息消费的重要性和发展趋势,本次会议不仅吸引力包括小米、东软等典型互联网企业的参与,也吸引了包括中兴通讯、四川长虹等国内著名硬件制造企业与会,使得本次会议成为互联网信息消费的风向标。
四川长虹电器股份有限公司副总经理郭德轩表示:“长虹并不是一个“传统”的企业,在国内打造硬件+软件+服务的全产业链模式,在国际立足四川,推进国际化市场拓展,完善全球产业布局,为全球100多个国家和地区提供产品和服务,以人为中心,不需要遥控器,只用手机实现多屏互联,实现互联网+时代下的长虹智能转型之路“。
“移动通讯技术,4G、5G和智能终端,带来更便利的生活体验,人们对于智能生活的看法也各不相同,但是人们对智能生活的期待却是相同的,即更舒适,更方便、更安全和更健康。“这是中兴通讯技术总监钱鹏在与会讲话的观点。
奥维云网总裁文建平坦承,对于奥维云网(AVC)来说,承担举办本次大会,是为了搭建一个服务平台,让更多的互联网企业和更多拥抱互联网的企业,分享交流在互联网大数据方面的经验,共同推进互联网大数据建设,分享大数据带来的行业红利。
以上是小编为大家分享的关于未来大数据改变行业状况的相关内容,更多信息可以关注环球青藤分享更多干货
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)