什么是大数据_工具

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中，大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据的方法)大数据的4V特点：Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)。大数据需要特殊的技术，包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的网络日志、视频、、地理位置信息等等。第三，数据的来源，直接导致分析结果的准确性和真实性。若数据来源是完整的并且真实，最终的分析结果以及决定将更加准确。第四，处理速度快，1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”

从某种程度上说，大数据是数据分析的前沿技术。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。

什么是大数据？

随着云时代的来临，大数据（big data）也吸引了越来越多的关注。那么，大数据究竟是什么呢？它的定义、结构、特点是什么呢？它又能应用在哪些方面呢？相信通过这篇文章你可以对大数据有一个全新全面的认识。

一、定义

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

二、特点

国际商业机器公司（简称：IBM）提出了大数据的5V特点，即：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

三、结构

大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示：企业中80%的数据都是非结构化数据，这些数据每年都按指数增长60%。

想要系统的认知大数据，必须要全面而细致的分解它，着手从三个层面来展开：

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践，实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

四、应用

1洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

2google流感趋势(Google Flu Trends)利用搜关键词预测禽流感的散布。

3统计学家内特西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

4麻省理工学院利用手机定位数据和交通数据建立城市规划。

5梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。

6医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。

通过以上几个方面说明：现在已经迎来了大数据时代。因此大数据开发成为各企业非常看重的一部分，对这方面的人才需求也逐渐增多。

对于数据库研究人员和从业人员而言，从数据库(DB)到大数据(BD)的转变可以用“池塘捕鱼”到“大海捕鱼”做类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式，而 “大海捕鱼”则是大数据时代的数据管理方式。这些差异主要体现在如下几个方面:

1、数据规模

数据库和大数据最明显的区别就是规模。数据库规模相对较小，即便是先前认为比较大的数据库，比如 VLDB(Very Large Database)，和大数据XLDB(Extremely Large Database)比起来还是差很远。

数据库的处理对象一般以 MB 为基本单位，而大数据则是GB、TB、PB 为基本处理单位。

2、数据类型

传统数据库数据种类单一，往往仅仅有一种或少数几种，这些数据又以结构化数据为主。而大数据的种类数以亿计，而这些数据既包括结构化、半结构化以及非结构化的数据，重要的是半结构化和非结构化数据所占份额越来越大。

3模式(Schema)和数据的关系

传统的数据库都是先有模式，然后才会产生数据。而大数据很多情况下难以预先确定模式，模式只有在数据出现之后才能确定，且模式随着数据量的增长处于不断的演变之中。

4处理对象

传统数据库数据是其处理的对象。而大数据的处理对象除了是数据以外，还能通过这些数据去预测其他数据出现的可能性，将收集到的数据作为一种资源来辅助解决其他诸多领域的问题。

现在大数据是一个十分火热的技术，这也使得很多人都开始关注大数据的任何动态，因为大数据在某种程度上来说能够影响我们的生活。在这篇文章中我们就给大家介绍一下大数据的分布式数据库的发展趋势，希望这篇文章能够帮助大家更好理解大数据的分布式数据库的发展趋势。

其实不论是Hadoop还是分布式数据库，技术体系上两者都已经向着计算存储层分离的方式演进。对于Hadoop来说这一趋势非常明显，HDFS存储与YARN调度计算的分离，使得计算与存储均可以按需横向扩展。而分布式数据库近年来也在遵循类似的趋势，很多数据库已经将底层存储与上层的SQL引擎进行剥离。传统的XML数据库、OO数据库、与pre-RDBMS正在消亡；新兴领域文档类数据库、图数据库、Table-Style数据库与Multi-Model数据库正在扩大自身影响；传统关系型数据库、列存储数据库、内存分析型数据库正在考虑转型。可以看到，从技术完整性与成熟度来看，Hadoop确实还处于相对早期的形态。直到今天，很多技术在很多企业应用中需要大量的手工调优才能够勉强运行。同时，Hadoop的主要应用场景一直以来面向批处理分析型业务，传统数据库在线联机处理部分不是其主要的发展方向。同时Hadoop技术由于开源生态体系过于庞大，同时参与改造的厂商太多，使得用户很难完全熟悉整个体系，这一方面大大增加了开发的复杂度，提升了用户使用的难度，另一方面则是各个厂商之间维护不同版本，使得产品的发展方向可能与开源版本差别逐渐加大。

而分布式数据库领域经历了几十年的磨练，传统RDBMS的MPP技术早已经炉火纯青，在分类众多的分布式数据库中，其主要发展方向基本可以分为“分布式联机数据库”与“分布式分析型数据库”两种。对比Hadoop与分布式数据库可以看出，Hadoop的产品发展方向定位，与分布式数据库中列存储数据库相当重叠而在高并发联机交易场景，在Hadoop中除了HBase能够勉强沾边以外，分布式数据库则占据绝对的优势。目前，从Hadoop行业的发展来看，很多厂商而是将其定位改变为数据科学与机器学习服务商。因此，从商业模式上看以Hadoop分销的商业模式基本已经宣告结束，用户已经体验到维护整个Hadoop平台的困难而不愿被强迫购买整个平台。大量用户更愿意把原来Hadoop的部件拆开灵活使用，为使用场景和结果买单，而非平台本身买单。另外一个细分市场——非结构化小文件存储，一直以来都是对象存储、块存储，与分布式文件系统的主战场。如今，一些新一代数据库也开始进入该领域，可以预见在未来的几年中，小型非结构化文件存储也可能成为具备多模数据处理能力的分布式数据库的战场之一。

我们在这篇文章中给大家介绍了很多有关大数据分布数据库的发展前景，通过这篇文章我们不难发现数据库的发展是一个极其重要的内容，只有搭建分布式数据库，大数据才能够更好地为我们服务。

以上就是关于什么是大数据全部的内容，包括:什么是大数据、大数据是什么、数据库和大数据的区别等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9541938.html

什么是大数据

发表评论

评论列表（0条）