怎样进入cda大数据平台

怎样进入cda大数据平台,第1张

数据是云计算的杀手锏应用

大数据与云计算的关系,引起一些人的困惑。为了便于探讨二者的关系,这里从“计算”和“数据”的历史关系说起。因为云计算首先是一种“计算”,大数据首先是一种“数据”,而计算机就是用来“计算”“数据”的。

计算机是软件和硬件分离的,是一种软件定义的电子产品(可编程)。计算机设计中的一个重要问题是如何有效管理CPU、内存和I/O等硬件资源,以及如何让应用程序合理使用这些资源。这两大任务最早内嵌在各种应用程序中,由应用程序自身完成,缺点是费力、复杂和易错,难以升级和移植,而且重复工作。

上世纪60年代这些共性功能开始从应用中分离出来,逐步形成了一种通用的软件包,这就是 *** 作系统。 *** 作系统是位于硬件和应用程序之间的“中间件”,让应用软件和硬件得以分离并独立发展,发展成了最核心的计算机系统软件,也成就了微软公司的伟大。

以UNIX为始祖的常见现代 *** 作系统有Android、BSD、iOS、Linux、MacOSX、QNX等,以及原创的微软Windows、WindowsPhone和IBM的z/OS *** 作系统的工作范围,也从最初的计算机蔓延到手机、游戏控制器、电视机顶盒、智能汽车和智能眼镜等,还有与云计算密切相关的Web服务器。

上世纪70年代,计算机的快速发展使得数字化数据爆发式增长,“海量”数据管理成了新挑战。把通用 *** 作系统的文件管理用于数据管理时,无论是扩展性、效率和便利性,都不适应“海量”数据的管理需要,应用软件被迫内嵌自己设计的数据管理系统。同样的,“海量”数据管理由每个应用程序自身完成,缺点也是费力、复杂和易错,难以升级和移植,并且重复工作。

于是一种专门面向“海量”数据管理的通用软件问世了,那就是数据库管理系统(DBMS),一种应用系统软件。DBMS包括了数据库定义、创建、查询、更新和管理等功能,这些都是数据管理所必需的,是 *** 作系统的文件管理系统所没有的。

著名的DBMS有MySQL、PostgreSQL、SQLite、MicrosoftSQLServer、MicrosoftAess、Oracle、Sybase、dBASE、FoxPro和IBMDB2等,都是关系型DBMS当然还有非关系型NoSQL模式的,只是没那么流行。

DBMS与字处理软件等一起,成为单机时代最重要的应用软件,也成就了一家伟大的应用软件公司Oracle大约不足20年前, *** 作系统和数据库的技术和市场未来,看起来都那么可预知。一个是微软的天下,一个是Oracle的天下。

但互联网来了,尤其是Web开始流行。

Web服务器所使用的 *** 作系统,最初面向单机设计,扩展用于局域网范围内管理多台服务器还勉强可用。但当互联网巨头崛起,需要Web服务器的 *** 作系统管理数百万台Web服务器的时候,传统 *** 作系统勉为其难,需要“技术革命”了。“革命”的结果就是云计算。

云计算大伞下有很多概念,核心技术之一是虚拟化。虚拟化有“1虚N”和“N虚1”两种模式,前者主要是为了省钱,以AmazonAWS为代表;后者主要是为了大数据处理,以GoogleGAE为代表。

云计算的“N虚1”模式,可将多台物理计算机虚拟化为一台超级计算机,向应用程序提供资源池的调度管理服务,与传统 *** 作系统的功能几乎完全相同,因此常被称为“云计算 *** 作系统”。只是云计算 *** 作系统的工作范围,扩大到数据中心甚至整个互联网范围内,把每台计算机也当做资源看待和管理。

有了云计算 *** 作系统,云应用软件和硬件(计算机资源)得以分离,各自可以独立发展。历史再次重演,云计算以及SNS、微博、移动互联网和物联网等的快速发展,具有3V特点的数据爆发,大数据管理的挑战也最先到来。同样,面向计算设计的通用云计算 *** 作系统,在大数据管理方面的扩展性、效率和便利性,都面临新挑战。

历史上计算机面对“海量”数据的挑战,将数据应用和数据管理分离,催生了通用的DBMS现在云计算面对大数据的挑战,也必将使大数据应用和大数据管理分离,催生“大数据库管理系统”,并且逐步走向通用化和平台化。

ATM(异步传输模式)是通信资源稀缺时代的产物,TCP/IP是通信资源富饶时代的产物。类似的,传统DBMS是IT资源稀缺时代的产物,大数据管理系统是IT资源富饶时代的产物。

计算是工具,可以工业化提供;数据是资源,是个性化的资产。如果说Office、游戏等是PC的杀手锏应用,浏览器、搜索、SNS等是互联网的杀手锏应用,那么大数据等就是云计算的杀手锏应用。

1、 *** 作体系的挑选


*** 作体系一般使用开源版的RedHat、Centos或许Debian作为底层的构建渠道,要根据大数据渠道所要建立的数据剖析东西能够支撑的体系,正确的挑选 *** 作体系的版本。


2、建立Hadoop集群


Hadoop作为一个开发和运行处理大规模数据的软件渠道,实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop结构中最核心的规划是HDFS和MapReduce,HDFS是一个高度容错性的体系,合适布置在廉价的机器上,能够供给高吞吐量的数据访问,适用于那些有着超大数据集的应用程序;MapReduce是一套能够从海量的数据中提取数据最终回来成果集的编程模型。在生产实践应用中,Hadoop非常合适应用于大数据存储和大数据的剖析应用,合适服务于几千台到几万台大的服务器的集群运行,支撑PB级别的存储容量。


3、挑选数据接入和预处理东西


面临各种来源的数据,数据接入便是将这些零散的数据整合在一起,归纳起来进行剖析。数据接入首要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入,数据接入常用的东西有Flume,Logstash,NDC(网易数据运河体系),sqoop等。


4、数据存储


除了Hadoop中已广泛应用于数据存储的HDFS,常用的还有分布式、面向列的开源数据库Hbase,HBase是一种key/value体系,布置在HDFS上,与Hadoop一样,HBase的目标首要是依靠横向扩展,通过不断的添加廉价的商用服务器,添加计算和存储才能。同时hadoop的资源管理器Yarn,能够为上层应用供给统一的资源管理和调度,为集群在利用率、资源统一等方面带来巨大的优点。


5、挑选数据挖掘东西


Hive能够将结构化的数据映射为一张数据库表,并供给HQL的查询功能,它是建立在Hadoop之上的数据仓库根底架构,是为了削减MapReduce编写工作的批处理体系,它的出现能够让那些通晓SQL技术、可是不熟悉MapReduce、编程才能较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL言语查询、汇总、剖析数据。


6、数据的可视化以及输出API


关于处理得到的数据能够对接主流的BI体系,比如国外的Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可免费试用)等,将成果进行可视化,用于决策剖析;或许回流到线上,支撑线上业务的开展。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/13252430.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-26
下一篇 2023-06-26

发表评论

登录后才能评论

评论列表(0条)

保存