什么是大数据_工具

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中，大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据的方法)大数据的4V特点：Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)。大数据需要特殊的技术，包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的网络日志、视频、、地理位置信息等等。第三，数据的来源，直接导致分析结果的准确性和真实性。若数据来源是完整的并且真实，最终的分析结果以及决定将更加准确。第四，处理速度快，1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”

从某种程度上说，大数据是数据分析的前沿技术。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。

您好，上海蓝盟为您解答。

首先简单的看一下云计算与大数据的概念

1)云计算:云计算本质上是一种计算资源集中分布和充分共享的效用计算模式,其中集中是为了计算资源的集约化管理,分布是便于扩展计算能力集中分布式是针对云服务提供商的,充分共享是针对用户,在云计算中,虽然对于每个云用户来说都拥有一台超级计算机,但本质上,这些用户是充分共享了云服务商所提供的计算服务而效用计算更多的是一种商业模式,就是用户按所需服务来付费

2)在前面的博文中,对大数据有个讨论,简单的说,大数据的特点就是数据量大(虽然很多人都把大数据定义在T级别以上,其实我觉得这是有问题的,大数据的大其实应该是个相对概念,是相对于当前的存储技术和计算能力的),数据应用需求大,计算量大数据量大是最基本的,需求大其实包含了需求的数量、多样性和实时性计算量大是因为数据量大和需求量大和算法复杂（检索，推荐，模式识别）所致大数据的这种特点使得我们很难找到通用的处理模式来解决大数据所面临的问题，我们只能针对不同的需求采用不同的处理方法，这也是大数据处理比较困难的症结所在。无论是传统的数据库还是最近兴起的NoSQL数据库，在大数据存储和处理方面其实都是有非常大的局限性的，所以分布式计算才在大数据处理中大兴其道。Hadoop虽然提供了比较完整的一套处理模式，但相对于大数据所面临的应用需求的多样性而言，能处理的问题域也是十分有限的。

数据库和数据仓库的概念，大家google一下就可以了，接下来，我们看看它们之间的关系：

1）数据库和数据仓库都是数据的一种存储方式，大数据处理更多的是一种需求(问题)，而云计算是一种比较综合的需求(问题)解决方案。

2)由于云计算本身的特性，天生就面临大数据处理(存储、计算等)问题，因为云计算的基本架构模式是C/S模式，其中S相对集中，而C是广泛分布。所有用户的数据和绝大部分的计算都是在S端完成的（数据量大，计算量大），加上用户也天然具有多样性（地域，文化，需求，个性化等），因此需求（也包括计算量）就非常大。

3)云计算当然会涉及到数据的存储技术，但数据库技术对于云计算来说要视具体的情况来分析：

A)对于IaaS而言，数据库技术不是必需的，也不是必备的功能；

B)对于PaaS来说，数据库功能应该是必备的功能

C)对于SaaS而言，必然会用到数据库技术（包括传统关系数据库和NoSQL数据库）。

而对于数据仓库技术，并不是云计算所必需的，但由于云数据的信息价值极大，类似一座金矿，我想云服务商是不可能放过从这些金矿中提取金子的

4)大数据首先所面临的问题就是大数据的存储问题，一般都会综合运用各种存储技术（文件存储，数据库存储），当然，你完全用文件存储或者数据库存储来解决，也是没问题的。与云计算类似，数据仓库技术不是必需的，但对于数据仓库技术对于结构化数据进行淘金还是非常有用的，当然，你不用数据仓库技术也可以，比如Hadoop模式。

在云计算和大数据处理中，最基础的技术其实是分布式计算技术。而对于构建分布式计算而言，多线程，同步，远程调用(RPC,RMI等)，进程管理与通信是其基本技术点。分布式计算编程是一种综合性应用编程，不仅需要有基本的技术点，还需要一定的组织管理知识。

就目前来说，云计算和大数据处理其实都没有形成一个统一的标准和定义。希望我的回复对您有所帮助。

云计算和大数据的区别是什么？关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说，分别做一句话直白解释就是：云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。

大数据技术是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。

云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网，后来也用来表示互联网和底层基础设施的抽象。

云计算相当于我们的计算机和 *** 作系统，将大量的硬件资源虚拟化之后再进行分配使用，在云计算领域目前的老大应该算是Amazon，可以说为云计算提供了商业化的标准，另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系)，开源的云平台较有活力的就是Openstack了。

大数据相当于海量数据的“数据库”，而且通观大数据领域的发展也能看出，当前的大数据处理一直在向着近似于传统数据库体验的方向发展，Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群，把传统而昂贵的并行计算等概念一下就拉到了我们的面前，但是其不适合数据分析人员使用(因为MapReduce开发复杂)，所以PigLatin和Hive出现了(分别是Yahoo!和facebook发起的项目，说到这补充一下，在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献)，为我们带来了类SQL的 *** 作，到这里 *** 作方式像SQL了，但是处理效率很慢，绝对和传统的数据库的处理效率有天壤之别，所以人们又在想怎样在大数据处理上不只是 *** 作方式类SQL，而处理速度也能“类SQL”，Google为我们带来了Dremel/PowerDrill等技术，Cloudera(Hadoop商业化较强的公司，Hadoop之父cutting就在这里负责技术领导)的Impala也出现了。

小型数据库一般都是用于数据量不是很大的软件中；主要用的是mysql、db2；软件类型一般是办公软件（公司、单位内部用）。

大型数据库一般都是用于数据量很大的软件中；主要用的是oracle；软件类型一般是网站开发（面向众量用户）。

现在的大数据分析，跟传统意义的分析有一个本质区别，就是传统的分析是基于结构化、关系性的数据。

而且往往是取一个很小的数据集，来对整个数据进行预测和判断。但现在是大数据时代，理念已经完全改变了，现在的大数据分析，是对整个数据全集直接进行存储和管理分析

以上就是关于什么是大数据全部的内容，包括:什么是大数据、数据仓库，大数据和云计算有什么区别和联系、大数据和云计算二者的区别等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9356665.html

什么是大数据

发表评论

评论列表（0条）