什么是大数据,大数据的典型案例有哪些

什么是大数据,大数据的典型案例有哪些,第1张

"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。

数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据存取:关系数据库、NOSQL、SQL等。

基础架构:云存储、分布式文件存储等。

数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

模型预测:预测模型、机器学习、建模仿真。

结果呈现:云计算、标签云、关系图等。

要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。

第一,数据体量巨大。从TB级别,跃升到PB级别。

第二,数据类型繁多,如前文提到的网络日志、视频、、地理位置信息,等等。

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量

编者按:大数据时代,数据能否成功运用将深刻影响着我们的生活质量。大数据商用越来越多,回归应用本质才好。

                   

《大数据时代》的作者维克托·迈尔-舍恩伯格在2016中国云计算大会上谈到,直到最近150年的时间里,人类的生活质量和收入才发生了爆炸式的改变,但在这之前的漫长岁月里,人类的生活质量却改进得非常缓慢。主要是因为测量世界的能力和观察世界的方式改变了,基于观察和数据,人类增强了洞察。

                      

互联网是个神奇的大网,大数据开发也是一种模式,你如果真想了解大数据,可以来这里,这个手机的开始数字是一八七中间的是三儿零最后的是一四二五零,按照顺序组合起来就可以找到,我想说的是,除非你想做或者了解这方面的内容,如果只是凑热闹的话,就不要来了。

随着观察范围和计算能力扩大,大数据时代会发生什么呢

                      

大数据会说话

维克托说,大数据能够影响人类的能力,将使得人类可以用一个全新的方式来与周围的世界相处,即通过增加数据的数量来获得对世界更深刻的洞察。

比如,大家在拍照时,可以通过选择焦点来确定清晰的拍摄对象,这样其它地方就会被拍得模糊。那么问题来了,如果以后想看清模糊的地方,该怎么办呢维克托给大家展示了用大数据照相机拍摄的照片,它将把所有被拍摄进来的数据收集进来,让照片局部可以在模糊和清晰之间自由转换。

这样一来,就算当初拍照的时候不知道应该突出哪个部分,事后也不会无法补救。推广到其它日常处理事务时,道理也是一样的。

再比如,大数据还可以用来帮助弱势群体。

在加拿大,有一个研究团队用大数据帮助早产婴儿。由于发现得太晚,早产婴儿经常因为感染而死亡。有一位博士给这些早产婴儿身上放置传感器后,可以通过测量他们的一系列身体指标来实时测量其体征情况。通过获取的大量数据,医生能够在在婴儿出现症状的24小时前就会提前发现,拯救这些早产儿的性命会容易很多。

              

大数据将在三大领域突破

大数据对已经对营销、电子商务、可预测的飞机维护带来了重大的影响,维克托认为,大数据接下来可能对以下这三个领域产生更大的影响。

1、无人驾驶的汽车。汽车非常昂贵,然而在欧洲,人们只有4%的时间在使用汽车,96%的时间把车停在停车场,这是非常不高效的系统。如果未来普及了无人驾驶的汽车,我们就可以过上另一种生活。

我们将只需要在手机上点一个按键,车就会自己开过来,把我们带去目的地。这种车就像没有驾驶员的出租车,可以被反复使用,效率和可持续性都得到了提升,也避免了资源浪费。

有研究发现,如果自动机动车得到普及,可以减少25%的交通拥堵,减少30%的城市停车场面积。如果北京减少30%的停车场需求,城市生活将大不一样。

2、医疗。我们的寿命现在都比较长了,但仍然希望能够更长。现在,我们的医疗水平并不是很好,由于我们忽视了每一个人的个体差异,医生会用通常的方法治疗每一个人。然而,基于大数据,我们可以做精确医疗,通过大数据分析每个人的差异,进行精确的治疗、剂量、用量,让患者更快恢复健康。

3、学习。我们要让下一代有能力了解这个世界。然而,因为没有数据,我们难以做到因材施教,所有孩子获得同样的教学,学习同样的书本。低效率的教学就是在浪费脑力、知识和我们解决问题的能力。

如果我们用大数据去分析孩子在发展学习能力时遇到的问题,就可以进行个性化的学习,就可以释放知识和理解力的力量,让每一个孩子充分开发潜能。

附:

当日,记者有幸参加了对维克托先生的采访,以下收录部分记者及同行与维克托先生的问答,以飨读者。

                

记者:如果把数据比喻为石油,石油是有国界的,那么数据也有国界吗

维克托:这个其实每一个社会、每一个国家都是有数据的,甚至小的团体,我们都是有数据的。现在问题不是大家没有数据,而是这个国家也好,这个组织也好,是不是真正的愿意把这个数据用来做事情,真正用大数据做决策的。

大数据涉及储存、分享等,但关键在于把这个大数据真正用起来,真正能够促进经济、促进社会发展。举个例子说,现在所有车都有ABS系统,都配有GPS,如果我们把这两种数据放在一起进行分析,在那些路段上,大部分人都在紧急刹车为什么会有这种情况出现,是车的问题,路的问题,还是控制的问题,总之,数据交叉稽核,会给我们带来新的启示。

记者:我们浏览网页、查询信息,这都属于大数据,怎么看待个人在大数据时代的隐私呢政府管理部门应该做些什么呢

维克托:这是一个好问题,现在数据隐私保护的方法完全是错误的。现在的做法是询问每一个客户、个人,你同意不同意公开数据,实际上,每个个体并都不知道我的数据会被怎样使用,有一些人对此并不在意,往往会点同意。这是一种错误的隐私保护的做法。

对于数据的隐私保护,可以考虑反过来的做法,可以考虑由政府设立一个规则:确定哪些企业为了哪些目的,可以以某种方式和规则来收集数据和使用,例如医疗数据,目的是治疗病人,这样的大数据收集和使用就是合理的,可以不更多顾及隐私。但是如果利用这些数据作恶,例如帮助保险公司创造保单,那是不合法的。政府应该制定措施做好隐私保护,不把这个问题扔给个人。

记者:您写的《大数据时代》,我个人觉得给IT产业吹来一股春风,您已经写了好几本书了,当时写《大数据时代》的时候,您初衷是什么呢目前是否实现了你当时心目中的设计

维克托:现在就是揭秘大数据时代的时间了。10年之前,我每年都办一个非常小型聚会,是一个相当高层的聚会,有微软的高层,有一些政客、经济学家、学术界专家聚在一起,讨论数据社会价值。当时有一个记者,每年据此出一个报告,有关讨论的内容。我感觉一年一年讨论过程中,有一些东西在哪里,可以真的能感觉到的,但是没有一个准确的名字,两年之后,我确定这就是数据价值,所以决定写一本书。

一定要看到这个数据深层次的价值,所谓的价值就是我们提到的数据的相关性。这是大数据的根本。大数据应用的过程可以用"旅程"来描述,我们运用数据、事实分析做更好的决策,这些都是基于事实的,不是基于主观的判断。所谓"旅程",意味着反反复复,有前进也会有后退。

希望有更多人用数据,用事实,用大数据方法辅助思考,用到讨论,这都是有意义的。我一直强调这个是一个旅程,在这个旅程中,我们不断往前,但是有时候也要后退一两步。

记者:大数据作用是预测,现在能做到准确预测吗

维克托:至少比用其他的东西好的多的。现在大数据不是百分之百准的,但是我们现在要的东西,比我们有的东西更好。

记者:未来大数据趋势是什么

维克托:大数据未来的趋势是怎么样让每个人使用大数据,而不只是用专业的大数据公司。透露一下,也许这是未来新书的内容。

常见的非关系型数据库有:1、mongodb;2、cassandra;3、redis;4、hbase;5、neo4j。其中mongodb是非常著名的NoSQL数据库,它是一个面向文档的开源数据库。

常见的几种非关系型数据库:

1、MongoDB

MongoDB是最著名的NoSQL数据库。它是一个面向文档的开源数据库。MongoDB是一个可伸缩和可访问的数据库。它在c++中。MongoDB同样可以用作文件系统。在MongoDB中,JavaScript可以作为查询语言使用。通过使用sharding MongoDB水平伸缩。它在流行的JavaScript框架中非常有用。

人们真的很享受分片、高级文本搜索、gridFS和map-reduce功能。惊人的性能和新特性使这个NoSQL数据库在我们的列表中名列第一。

特点:提供高性能;自动分片;运行在多个服务器上;支持主从复制;数据以JSON样式文档的形式存储;索引文档中的任何字段;由于数据被放置在碎片中,所以它具有自动负载平衡配置;支持正则表达式搜索;在失败的情况下易于管理。

优点:易于安装MongoDB;MongoDB Inc为客户提供专业支持;支持临时查询;高速数据库;无模式数据库;横向扩展数据库;性能非常高。

缺点:不支持连接;数据量大;嵌套文档是有限的;增加不必要的内存使用。

2、Cassandra

Cassandra是Facebook为收件箱搜索开发的。Cassandra是一个用于处理大量结构化数据的分布式数据存储系统。通常,这些数据分布在许多普通服务器上。您还可以添加数据存储容量,使您的服务保持在线,您可以轻松地完成这项任务。由于集群中的所有节点都是相同的,因此不需要处理复杂的配置。

Cassandra是用Java编写的。Cassandra查询语言(CQL)是查询Cassandra数据库的一种类似sql的语言。因此,Cassandra在最佳开源数据库中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。

特点:线性可伸缩;;保持快速响应时间;支持原子性、一致性、隔离性和耐久性(ACID)等属性;使用Apache Hadoop支持MapReduce;分配数据的最大灵活性;高度可伸缩;点对点架构。

优点:高度可伸缩;无单点故障;Multi-DC复制;与其他基于JVM的应用程序紧密集成;更适合多数据中心部署、冗余、故障转移和灾难恢复。

缺点:对聚合的有限支持;不可预知的性能;不支持特别查询。

3、Redis

Redis是一个键值存储。此外,它是最著名的键值存储。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C语言编写的。此外,它是根据BSD授权的。

特点:自动故障转移;将其数据库完全保存在内存中;事务;Lua脚本;将数据复制到任意数量的从属服务器;钥匙的寿命有限;LRU驱逐钥匙;支持发布/订阅。

优点:支持多种数据类型;很容易安装;非常快(每秒执行约11万组,每秒执行约81000次); *** 作都是原子的;多用途工具(在许多用例中使用)。

缺点:不支持连接;存储过程所需的Lua知识;数据集必须很好地适应内存。

4、HBase

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

5、neo4j

Neo4j被称为原生图数据库,因为它有效地实现了属性图模型,一直到存储层。这意味着数据完全按照白板的方式存储,数据库使用指针导航和遍历图。Neo4j有数据库的社区版和企业版。企业版包括Community Edition必须提供的所有功能,以及额外的企业需求,如备份、集群和故障转移功能。

特点:它支持唯一的约束;Neo4j支持完整的ACID(原子性、一致性、隔离性和持久性)规则;Java API: Cypher API和本机Java API;使用Apache Lucence索引;简单查询语言Neo4j CQL;包含用于执行CQL命令的UI: Neo4j Data Browser。

优点:容易检索其相邻节点或关系细节,无需连接或索引;易于学习Neo4j CQL查询语言命令;不需要复杂的连接来检索数据;非常容易地表示半结构化数据;大型企业实时应用程序的高可用性;简化的调优。

缺点:不支持分片

“大数据时代,在充分挖掘和发挥大数据价值同时,解决好数据安全与个人信息保护等问题刻不容缓。”中国互联网协会副秘书长石现升在贵阳参会时指出。

员工监守自盗数亿条用户信息

今年初,公安部破获了一起特大窃取贩卖公民个人信息案。

被窃取的用户信息主要涉及交通、物流、医疗、社交和银行等领域数亿条,随后这些用户个人信息被通过各种方式在网络黑市进行贩卖。警方发现,幕后主要犯罪嫌疑人是发生信息泄漏的这家公司员工。

业内数据安全专家评价称,这起案件泄露数亿条公民个人信息,其中主要问题,就在于内部数据安全管理缺陷。

国外情况也不容乐观。2016年9月22日,全球互联网巨头雅虎证实,在2014年至少有5亿用户的账户信息被人窃取。窃取的内容涉及用户姓名、电子邮箱、电话号码、出生日期和部分登陆密码。

企业数据信息泄露后,很容易被不法分子用于网络黑灰产运作牟利,内中危害轻则窃财重则取命,去年8月,山东高考生徐玉玉被电信诈骗9900元学费致死案等数据安全事件,就可见一斑。

去年7月,微软Window10也因未遵守欧盟“安全港”法规,过度搜集用户数据而遭到法国数据保护监管机构CNIL的发函警告。

上海社会科学院互联网研究中心发布的《报告》指出,随着数据资源商业价值凸显,针对数据的攻击、窃取、滥用和劫持等活动持续泛滥,并呈现出产业化、高科技化和跨国化等特性,对国家和数据生态治理水平,以及组织的数据安全能力都提出了全新挑战。

当前,重要商业网站海量用户数据是企业核心资产,也是民间黑客甚至国家级攻击的重要对象,重点企业数据安全管理更是面临严峻压力。

企业、组织机构等如何提升自身数据安全能力?

企业机构亟待提升数据安全管理能力

“大数据安全威胁渗透在数据生产、流通和消费等大数据产业的各个环节,包括数据源、大数据加工平台和大数据分析服务等环节的各类主体都是威胁源。”上海社科院信息所主任惠志斌向记者分析称,大数据安全事件风险成因复杂交织,既有外部攻击,也有内部泄密,既有技术漏洞,也有管理缺陷,既有新技术新模式触发的新风险,也有传统安全问题的持续触发。

5月27日,中国互联网协会副秘书长石现升称,互联网日益成为经济社会运行基础,网络数据安全意识、能力和保护手段正面临新挑战。

今年6月1日即将施行的《网络安全法》针对企业机构泄露数据的相关问题,重点做了强调。法案要求各类组织应切实承担保障数据安全的责任,即保密性、完整性和可用性。另外需保障个人对其个人信息的安全可控。

石现升介绍,实际早在2015年国务院就发布过《促进大数据发展行动纲要》,就明确要“健全大数据安全保障体系”、“强化安全支撑,提升基础设施关键设备安全可靠水平”。

“目前,很多企业和机构还并不知道该如何提升自己的数据安全管理能力,也不知道依据什么标准作为衡量。”一位业内人士分析称,问题的症结在于国内数据安全管理尚处起步阶段,很多企业机构都没有设立数据安全评估体系,或者没有完整的评估参考标准。

“大数据安全能力成熟度模型”已提国标申请

数博会期间,记者从“大数据安全产业实践高峰论坛”上了解到,为解决此问题,全国信息安全标准化技术委员会等职能部门与数据安全领域的标准化专家学者和产业代表企业协同,着手制定一套用于组织机构数据安全能力的评估标准——《大数据安全能力成熟度模型》,该标准是基于阿里巴巴提出的数据安全成熟度模型(Data Security Maturity Model, DSMM)进行制订。

阿里巴巴集团安全部总监郑斌介绍DSMM。

作为此标准项目的牵头起草方,阿里巴巴集团安全部总监郑斌介绍说,该标准是阿里巴巴基于自身数据安全管理实践经验成果DSMM拟定初稿,旨在与同行业分享阿里经验,提升行业整体安全能力。

“互联网用户的信息安全从来都不是某一家公司企业的事。”郑斌称,《大数据安全能力成熟度模型》的制订还由中国电子技术标准化研究院、国家信息安全工程技术研究中心、中国信息安全测评中心、公安三所、清华大学和阿里云计算有限公司等业内权威数据安全机构、学术单位企业等共同合作提出意见。

以上就是关于什么是大数据,大数据的典型案例有哪些全部的内容,包括:什么是大数据,大数据的典型案例有哪些、大数据的应用案例以及未来发展趋势、有哪些轻型的非关系型数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9383770.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存