通常数据库分为关系型数据库和非关系型数据库,关系型数据库的优势到现在也是无可替代的,比如MySQL、SQLServer、Oracle、DB2、SyBase、Informix、PostgreSQL以及比较小型的Aess等等数据库,这些数据库支持复杂的SQL *** 作和事务机制,适合小量数据读写场景;但是到了大数据时代,人们更多的数据和物联网加入的数据已经超出了关系数据库的承载范围。
大数据时代初期,随着数据请求并发量大不断增大,一般都是采用的集群同步数据的方式处理,就是将数据库分成了很多的小库,每个数据库的数据内容是不变的,都是保存了源数据库的数据副本,通过同步或者异步方式保证数据的一致性,每个库设定特定的读写方式,比如主数据库负责写 *** 作,从数据库是负责读 *** 作,等等根据业务复杂程度以此类推,将业务在物理层面上进行了分离,但是这种方式依旧存在一定的负载压力的问题,企业数据在不断的扩增中,后面就采用分库分表的方式解决,对读写负载进行分离,但是这种实现依旧存在不足,且需要不断进行数据库服务器扩容。
NoSQL数据库大致分为5种类型
1、列族数据库:BigTable、HBase、Cassandra、AmazonSimpleDB、HadoopDB等,下面简单介绍几个
(1)Cassandra:Cassandra是一个列存储数据库,支持跨数据中心的数据复制。它的数据模型提供列索引,log-structured修改,支持反规范化,实体化视图和嵌入超高速缓存。
(2)HBase:ApacheHbase源于Google的Bigtable,是一个开源、分布式、面向列存储的模型。在Hadoop和HDFS之上提供了像Bigtable一样的功能。
(3)AmazonSimpleDB:AmazonSimpleDB是一个非关系型数据存储,它卸下数据库管理的工作。开发者使用Web服务请求存储和查询数据项
(4)ApacheAumulo:ApacheAumulo的有序的、分布式键值数据存储,基于Google的BigTable设计,建立在ApacheHadoop、Zookeeper和Thrift技术之上。
(5)Hypertable:Hypertable是一个开源、可扩展的数据库,模仿Bigtable,支持分片。
(6)AzureTables:WindowsAzureTableStorageService为要求大量非结构化数据存储的应用提供NoSQL性能。表能够自动扩展到TB级别,能通过REST和ManagedAPI访问。
2、键值数据库:Redis、SimpleDB、Scalaris、Memcached等,下面简单介绍几个
(1)Riak:Riak是一个开源,分布式键值数据库,支持数据复制和容错。(2)Redis:Redis是一个开源的键值存储。支持主从式复制、事务,Pub/Sub、Lua脚本,还支持给Key添加时限。
(3)Dynamo:Dynamo是一个键值分布式数据存储。它直接由亚马逊Dynamo数据库实现;在亚马逊S3产品中使用。
(4)OracleNoSQLDatabase:来自Oracle的键值NoSQL数据库。它支持事务ACID(原子性、一致性、持久性和独立性)和JSON。
(5)OracleNoSQLDatabase:具备数据备份和分布式键值存储系统。
(6)Voldemort:具备数据备份和分布式键值存储系统。
(7)Aerospike:Aerospike数据库是一个键值存储,支持混合内存架构,通过强一致性和可调一致性保证数据的完整性。
3、文档数据库:MongoDB、CouchDB、Perservere、Terrastore、RavenDB等,下面简单介绍几个
(1)MongoDB:开源、面向文档,也是当下最人气的NoSQL数据库。
(2)CounchDB:ApacheCounchDB是一个使用JSON的文档数据库,使用Javascript做MapRece查询,以及一个使用>
(3)Couchbase:NoSQL文档数据库基于JSON模型。
(4)RavenDB:RavenDB是一个基于NET语言的面向文档数据库。
(5)MarkLogic:MarkLogicNoSQL数据库用来存储基于XML和以文档为中心的信息,支持灵活的模式。
4、图数据库:Neo4J、InfoGrid、OrientDB、GraphDB,下面简单介绍几个
(1)Neo4j:Neo4j是一个图数据库;支持ACID事务(原子性、独立性、持久性和一致性)。
(2):一个图数据库用来维持和遍历对象间的关系,支持分布式数据存储。
(3):是结合使用了内存和磁盘,提供了高可扩展性,支持SPARQ、RDFS和Prolog推理。
5、内存数据网格:Hazelcast、OracleCoherence、TerracottaBigMemorry、GemFire、Infinispan、GridGain、GigaSpaces,下面简单介绍几个
(1)Hazelcast:HazelcastCE是一个开源数据分布平台,它允许开发者在数据库集群之上共享和分割数据。
(2)OracleCoherence:Oracle的内存数据网格解决方案提供了常用数据的快速访问能力,一致性支持事务处理能力和数据的动态划分。
(3)TerracottaBigMemory:来自Terracotta的分布式内存管理解决方案。这项产品包括一个Ehcache界面、Terracotta管理控制台和BigMemory-Hadoop连接器。
(4)GemFire:VmwarevFabricGemFire是一个分布式数据管理平台,也是一个分布式的数据网格平台,支持内存数据管理、复制、划分、数据识别路由和连续查询。
(5)Infinispan:Infinispan是一个基于Java的开源键值NoSQL数据存储,和分布式数据节点平台,支持事务,peer-to-peer及client/server架构。
(6)GridGain:分布式、面向对象、基于内存、SQLNoSQL键值数据库。支持ACID事务。
(7)GigaSpaces:GigaSpaces内存数据网格能够充当应用的记录系统,并支持各种各样的高速缓存场景。
主要从以下几个方面理解大数据时代。
第一,大数据产生的背景。
1由于电子终端产品和互联网络的普及为大数据提供了良好的硬件支撑。电脑和手机的普及为数据积累提供了数据源头,互联网为数据积累提供了路径,服务器为大数据积累提供了载体,超速运算为大数据分析提供了便捷,所以大数据的产生有了良好基础。
2互联网经济发展推进了大数据时代的发展。由于互联网经济和各平台的竞争发展,各平台要完成精准的推送,提升服务或是产品销售针对性,对数据进行了大量分析,一直演进成为大数据分析的必然。
第二,大数据的意义
1推动经济发展。由于大数据的分析可以更精准的对消费者进行推送,并且完成最后的交易,这样无形中对于经济的发展起到了非常大的推动作用。
2推动生活便利化。有了大数据的分析,加上智能化的发展,无论是出行导航,还是搜索引擎,都为生活的便利提供了很多便捷之处。
第三,大数据的利弊。
凡事都有两面性,尤其是对于不同的人而言。大数据的发展必然是好的,有利的,也是时代发展的必然,为生活的各方面都提供了非常好的帮助。但是也有人利用大数据的分析做一些不利于他人的事情,比如一些数据买卖,泄露个人数据都暴露了大数据时代的一些隐患,所以如何防范大数据时代数据被一些别有用心的人利用也是要我们防范的。
总之,大数据的到来是科技时代进步的表现,它的发展会越来越强大,起到的作用也会越来越多,让我们一起关注它的发展吧!
如果简单来理解什么是大数据,我们只要抓住大数据的四个特点,大量、高速、多样、价值。具体来讲就是数据体量巨大,数据的爆发性增长迫切的需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据;数据类型繁多,广泛的数据来源决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统的应用;价值密度低,现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据;数据分析处理速度快,主要通过互联网传输。大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。大数据技术及应用
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
二、什么是大数据
大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。
(一)大数据的4V特征
大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。
多样化(Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。
价值(Value):大量的不相关信息,浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
三、大数据时代对生活、工作的影响
大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
“大数据”的影响,增加了对信息管理专家的需求。事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
大数据在个人隐私的方面,大量数据经常含有一些详细的潜在的能够展示有关我们的信息,逐渐引起了我们对个人隐私的担忧。一些处理大数据公司需要认真的对待这个问题。例如美国天睿资讯给人留下比较深刻印象的是他的一个科学家提出,我们不应该简单地服从法律方面的隐私保护问题,这些远远不够的,公司都应该遵从谷歌不作恶的原则,甚至更应该做出更积极的努力。
四、大数据时代的发展方向、趋势
根据ESM国际电子商情针对2013年大数据应用现状和趋势的调查显示:被调查者最关注的大数据技术中,排在前五位的分别是大数据分析(1291%)、云数据库(1182%)、Hadoop(1173%)、内存数据库(1164%)以及数据安全(921%)。Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。从中可以看出,人们对大数据的了解已经逐渐深入,关注的技术点也越来越多。既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?从下图可以看出,排在前三位的功能分别是实时分析(2132%)、丰富的挖掘模型(1797%)和可视化界面(1591%)。2012年也曾做过类似的调查,当时选择丰富的挖掘模型(2722%)比实时分析(1988%)多734%。短短一年时间内,企业对实时分析的需求激增,成就了很多以实时分析为创新技术的大数据厂商。从调查结果可以看出:企业在未来一两年中有迫切部署大数据的需求,并且已经从一开始的基础设施建设,逐渐发展为对大数据分析和整体大数据解决方案的需求。与此同时,大数据还面临人才的缺乏的挑战,需要企业和高校联合起来,培养数据领域的复合型人才,帮助企业打赢这场“数据战”。
五、大数据的应用
(一)行业拓展者,打造大数据行业基石
IBM:IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉(混搭供电合作的网络平台);业务事件处理;IBM Mashup Center的计量,监测,和商业化服务(MMMS)。 IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights,基于Apache Hadoop。
该产品组合包括:打包的Apache Hadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析。软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案。
微软:2011年1月与惠普(具体而言是HP数据库综合应用部门) 合作目标是开发了一系列能够提升生产力和提高决策速度的设备。
EMC:EMC 斩获了纽交所和Nasdaq;大数据解决方案已包括40多个产品。
Oracle:Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。
(二)大数据促进了政府职能变革
重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程;在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门;解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革,另一方面政府投入将形成示范效应,大大推动大数据的发展。
(三)打造“智慧城市”
美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式” ;中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。”
(四)未来,改变一切
未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。
数据的再利用:由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。
六、机遇和挑战
大数据赋予了我们洞察未来的能力,但同时诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了。多少密码和账号是因为“社交网络”流出去的?
眼下中国互联网热门的话题之一就是互联网实名制问题,我愿意相信这是个好事。毕竟我们如果明着亮出自己的身份,互联网才能对我们的隐私给予更好保护众多专家认为,大数据时代的存储,应当是分布式的存储,并呈现出与计算融合的趋势。当然,不同专家对融合的理解也有所区别。 SNIA-China技术委员会主席雷涛表示,在当前的大数据时代,由于数据量TB、PB级的急剧膨胀,传统的数据搬移工作已经不现实,因而存储服务器出现新的融合趋势。在这样的架构中,数据不再移动,写入以后分散在STORAGE,它的计算节点融合在数据旁边的CPU,数据越来越贴近计算。 雷涛补充说,大数据只谈商业分析的数据支持,这是小数据思维,从金融、运营商、政府行业我们做的项目里面发现,大数据是嵌入到整个行业里面,替换以前的存储和计算的系统架构的过程。 华为存储产品线Marketing部长经宁认为,大数据带来的三大变化,包括从集中式走向分布式,从水平走向纵向,从计算为中心转向以数据为中心,总结一句话,即在大数据下架构方向走向分布式存储的架构。 2013年,华为存储产品线把理念进行升级,变成“存以致用,融以致远”。经宁表示,融合架构是我们面对大数据挑战一个很好的选择。华为更多的希望把数据智能用起来产生价值,通过融合架构实现计算存储融合,可以带来更高的管理效率更高效能,大大降低我们管理上的开销。 中桥国际调研咨询公司首席分析师王丛女士则从虚拟化、云计算数据保护和融合架构三个维度谈了中国数据中心的发展变化。她表示,具有高可移动性的虚拟机用于生产,掉了链子就很难判断是哪个物理环境,这就驱动了融合架构。融合架构避免了整合的时间和网络问题判断的时间,能够实现统一集中透明管理,可以根据工作负载去实时动态配置资源,也可以实时监控哪里出了问题,怎么解决问题。 王丛还指出,融合架构有不同的形态,其中一种是在原来硬件基础上用一个软件罩上,然后形成融合架构,实现目的是可以在线扩展,所有动态可以负载均衡,在最大限度提高部署效率前提下,又能够降低因为硬件问题而导致的应用性能降低和应用的不稳定。 老牌存储厂商NetApp同样对存储架构很有体会。NetApp公司北方区及电信事业部技术总监刘炜表示,在今天把数据存起来不是很难的问题,买一个移动硬盘就可以存储数据,但是在上面存储享受的服务级别不同的,不同于放在数据中心和网络云上面的服务级别的。 为了不让数据成为整个企业发展的负担,而是成为真正的价值点,从资料变成资产,基础架构需要快速、安全地支持一些新的技术手段。刘炜认为,应用级别和服务级别怎么定义需要有很好存储架构。NetApp集群存储系统,并不是简单地迎合新概念,而是面向实际的应用设计。NetApp做了很多IT架构的设计,满足应用分级、资源分层的需求,你可以用虚拟化,也可以不用。 Fusion-io大中国区技术总监Tonny Ai与英特尔公司通信和存储基础架构事业部存储部市场总监 Christine M Rice女士谈到了SSD在大数据时代数据中心的应用。Tonny Ai表示,让包括非结构化数据的大量数据快速变成信息,不仅仅是服务器要快,存储速度也要跟上CPU的速度,闪存正是针对当前网络存储速度落后的解决方案,能够有效提高存储的性能。 同时,Tonny Ai认为,在云计算、大数据时代,集中式存储需要的管理和维护非常困难,分布式存储模型是大势所趋。在这其中,Fusion-io提供了PCIe闪存卡、全闪存阵列以及SDK工具,支持提升各种应用的性能。 Christine M Rice女士指出,SSD不只是让数据变快。她认为,通过SSD在数据中心的使用,能够帮助节约成本,降低延迟,加快访问数据的速度,同时还能够提供非常高的可靠性和管理级别,结合了DRM的使用进行软件分层管理。 戴尔亚太存储技术总监许良谋则强调了SSD的利用要在成本和性能之间的平衡,如何更好地应对大数据——闪存的成本和寿命让很多企业对它爱恨交加。许良谋认为,大数据需要一个高容量高速度的共享存储,戴尔的流动数据架构就是一个让数据平滑迁移的平台。 戴尔实现了一个新的技术突破,即快速SLC和eMLC大容量盘可以用到流动架构里面,再加上普通的大容量盘,两级固态盘优化和流动数据架构的配合,这种方案可以比普通纯闪存的方式实现75%以上的成本节约。 许良谋介绍到,戴尔一直通过收购、合作等方式,在自身产品线中不断引入新的存储技术,力图把最好的存储产品以最经济的方式提供给用户。本教程 *** 作环境:windows7系统、Dell G3电脑。
云计算
云计算(Cloud Computing)是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
对于到底什么叫云计算,有很多种说法。现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
用通俗的话说,云计算就是通过大量在云端的计算资源进行计算,如:用户通过自己的电脑发送指令给提供云计算的服务商,通过服务商提供的大量服务器进行“核爆炸”的计算,再将结果返回给用户。
云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。
大数据
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)