如今,两种主流技术已成为IT领域关注的焦点-大数据和云计算。根本不同的是,大数据只涉及处理海量数据,而云计算则涉及基础架构。但是,大数据和云技术提供的简化功能是其被大量企业采用的主要原因。例如,亚马逊的“ Elastic Map Reduce”演示了如何利用Cloud Elastic Computes的功能进行大数据处理。
两者的结合为组织带来了有益的结果。更不用说,这两种技术都处于发展阶段,但是它们的结合在大数据分析中利用了可扩展且具有成本效益的解决方案。
那么,我们可以说大数据与云计算完美结合吗?好吧,有数据点支持它。除此之外,还需要处理一些实时挑战。
大数据与云计算的关系
大数据和云计算这两种技术本身都是有价值的。 此外,许多企业的目标是将两种技术结合起来以获取更多的商业利益。两种技术都旨在提高公司的收入,同时降低投资成本。尽管Cloud管理本地软件,但大数据有助于业务决策。
让我们从这两种技术的基本概述开始!
大数据与云计算
大数据处理大量的结构化,半结构化或非结构化数据,以进行存储和处理以进行数据分析。大数据有五个方面,通过5V来描述
数量–数据量
种类–不同类型的数据
速度–系统中的数据流率
价值 –基于其中包含的信息的数据价值
准确性 –数据保密性和可用性
云计算以按需付费的模式向用户提供服务。云提供商提供三种主要服务,这些服务概述如下:
基础架构即服务(IAAS)
在这里,服务提供商将提供整个基础架构以及与维护相关的任务。
平台即服务(PAAS)
在此服务中,Cloud提供程序提供了诸如对象存储,运行时,排队,数据库等资源。但是,与配置和实现相关的任务的责任取决于使用者。
软件即服务(SAAS)
此服务是最便捷的服务,它提供所有必要的设置和基础结构,并为平台和基础结构提供IaaS。
大数据与云计算的关系模型云计算在大数据中的作用
大数据和云计算的关系可以根据服务类型进行分类:
IAAS在公共云中
IaaS是一种经济高效的解决方案,利用此云服务,大数据服务使人们能够访问无限的存储和计算能力。对于云提供商承担所有管理基础硬件费用的企业而言,这是一种非常经济高效的解决方案。
私有云中的PAAS
PaaS供应商将大数据技术纳入其提供的服务。因此,它们消除了处理管理单个软件和硬件元素的复杂性的需求,而这在处理TB级数据时是一个真正的问题。
混合云中的SAAS
如今,分析社交媒体数据已成为公司进行业务分析的基本参数。在这种情况下,SaaS供应商提供了进行分析的出色平台。
大数据与云计算有何关系?
因此,从以上描述中,我们可以看到,Cloud通过可伸缩且灵活的自助服务应用程序抽象了挑战和复杂性,从而启用了“即服务”模式。从最终用户提取海量数据的分布式处理时,大数据需求是相同的。
云中的大数据分析有多个好处。
改进分析
随着云技术的进步,大数据分析变得更加完善,从而带来了更好的结果。因此,公司倾向于在云中执行大数据分析。此外,云有助于整合来自众多来源的数据。
简化的基础架构
大数据分析是基础架构上一项艰巨的艰巨工作,因为数据量大,速度和传统基础架构通常无法跟上的类型。由于云计算提供了灵活的基础架构,我们可以根据当时的需求进行扩展,因此管理工作负载很容易。
降低成本
大数据和云技术都通过减少所有权来为组织创造价值。云的按用户付费模型将CAPEX转换为OPEX。另一方面,Apache降低了大数据的许可成本,该成本应该花费数百万美元来构建和购买。云使客户无需大规模的大数据资源即可进行大数据处理。因此,大数据和云技术都在降低企业成本并为企业带来价值。
安全与隐私
数据安全性和隐私性是处理企业数据时的两个主要问题。此外,当您的应用程序由于其开放的环境和有限的用户控制安全性而托管在Cloud平台上时,这成为主要的问题。另一方面,像Hadoop这样的大数据解决方案是一个开源应用程序,它使用了大量的第三方服务和基础架构。因此,如今,系统集成商引入了具有d性和可扩展性的私有云解决方案。此外,它还利用了可扩展的分布式处理。
除此之外,云数据是在通常称为云存储服务器的中央位置存储和处理的。服务提供商和客户将与之一起签署服务水平协议(SLA),以获得他们之间的信任。如果需要,提供商还可以利用所需的高级安全控制级别。这可确保涵盖以下问题的云计算中大数据的安全性:
保护大数据免受高级威胁。
云服务提供商如何维护存储和数据。
有一些与服务级别协议相关的规则可以保护
数据
容量
可扩展性
安全
隐私
数据存储的可用性和数据增长
另一方面,在许多组织中,大数据分析被用来检测和预防高级威胁和恶意黑客。
虚拟化
基础架构在支持任何应用程序中都起着至关重要的作用。虚拟化技术是大数据的理想平台。像Hadoop这样的虚拟化大数据应用程序具有多种优势,这些优势在物理基础架构上是无法访问的,但它简化了大数据管理。大数据和云计算指出了各种技术和趋势的融合,这使IT基础架构和相关应用程序更加动态,更具消耗性和模块化。因此,大数据和云计算项目严重依赖虚拟化
hadoop什么是大数据存储?
首先,我们需要清楚大数据与其他类型数据的区别以及与之相关的技术(主要是分析应用程序)。大数据本
身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结
构化数据(社交媒体帖子、传感器、多媒体数据)。此外,大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。
由于这些数据缺乏一致性,使标准处理和存储技术无计可施,而且运营开销以及庞大的数据量使我们难以使用传统的服务器和SAN方法来有效地进行处理。换句话说,大数据需要不同的处理方法:自己的平台,这也是Hadoop可以派上用场的地方。
Hadoop
是一个开源分布式计算平台,它提供了一种建立平台的方法,这个平台由标准化硬件(服务器和内部服务器存储)组成,并形成集群能够并行处理大数据请求。在存
储方面来看,这个开源项目的关键组成部分是Hadoop分布式文件系统(HDFS),该系统具有跨集群中多个成员存储非常大文件的能力。HDFS通过创建
多个数据块副本,然后将其分布在整个集群内的计算机节点,这提供了方便可靠极其快速的计算能力。
从目前来看,为大数据建立足够大的存储平台最简单的方法就是购买一套服务器,并为每台服务器配备数TB级的驱动器,然后让Hadoop来完成余下的工作。对于一些规模较小的企业而言,可能只要这么简单。然而,一旦考虑处理性能、算法复杂性和数据挖掘,这种方法可能不一定能够保证成功。但也因为虚拟化的特性,为承载环境中不断增长的虚拟机,需要扩容存储以满足性能与容量的使用需求。IT经理们已经发现,那些因服务器虚拟化所节省的资金都逐渐投入存储购买的方案上了。 服务器虚拟化因虚拟机蔓延、虚拟机中用于备份与灾难恢复软件配置的问题,让许多组织彻底改变了原有的数据备份与灾难恢复策略。EMC、Hitachi Data System、IBM、NetApp和Dell等都致力于服务器虚拟化存储问题,提供包括存储虚拟化、重复数据删除与自动化精简配置等解决方案。 服务器虚拟化存储问题出现在数据中心虚拟化环境中传统的物理存储技术。导致虚拟服务器蔓延的部分原因,在于虚拟服务器可能比物理服务器多消耗约30%左右的磁盘空间。还可能存在虚拟机“I/O 搅拌机”问题:传统存储架构无法有效管虚拟机产生的混杂模式随机I/O。虚拟化环境下的虚拟存储管理远比传统环境复杂——管理虚拟机就意味着管理存储空间。解决服务器虚拟化存储问题 作为一名IT经理,你拥有解决此类服务器虚拟化存储问题的几个选项,我们从一些实用性较低的方案开始介绍。其中一项便是以更慢的速度部署虚拟机。你可以在每台宿主上运行更少的虚拟机,降低“I/O混合器”问题出现的可能性。另外一个方法则是提供额外存储,但价格不菲。 一个更好的选择是在采购存储设备时,选择更智能的型号并引入诸如存储虚拟化,重复数据删除与自动化精简配置技术。采用这一战略意味着新技术的应用,建立与新产商的合作关系,例如Vistor、DataCore与FalconStor。将存储虚拟化作为解决方案 许多分析师与存储提供商推荐存储虚拟化,作为服务器虚拟化存储问题的解决方案。即使没有出现问题,存储虚拟化也可以减少数据中心开支,提高商业灵活性并成为任何私有云的重要组件之一。 概念上来说,存储虚拟化类似服务器虚拟化。将物理存储系统抽象,隐藏复杂的物理存储设备。存储虚拟化将来自于多个网络存储设备的资源整合为资源池,对外部来说,相当于单个存储设备,连同虚拟化的磁盘、块、磁带系统与文件系统。存储虚拟化的一个优势便是该技术可以帮助存储管理员管理存储设备,提高执行诸如备份/恢复与归档任务的效率。 存储虚拟化架构维护着一份虚拟磁盘与其他物理存储的映射表。虚拟存储软件层(逻辑抽象层)介于物理存储系统与运行的虚拟服务器之间。当虚拟服务器需要访问数据时,虚拟存储抽象层提供虚拟磁盘与物理存储设备之间的映射,并在主机与物理存储间传输数据。 只要理解了服务器虚拟化技术,存储虚拟化的区别仅在于采用怎样的技术来实现。容易混淆的主要还是在于存储提供商用于实现存储虚拟化的不同方式,可能直接通过存储控制器也可能通过SAN应用程序。同样的,某些部署存储虚拟化将命令和数据一起存放(in-band)而其他可能将命令与数据路径分离(out-of-band)。 存储虚拟化通过许多技术实现,可以是基于软件、主机、应用或基于网络的。基于主机的技术提供了一个虚拟化层,并扮演为应用程序提供单独存储驱动分区的角色。基于软件的技术管理着基于存储网络的硬件设施。基于网络的技术与基于软件的技术类似,但工作于网络交换层。 存储虚拟化技术也有一些缺陷。实现基于主机的存储虚拟化工具实际上就是卷管理器,而且已经流传了好多年。服务器上的卷管理器用于配置多个磁盘并将其作为单一资源管理,可以在需要的时候按需分割,但这样的配置需要在每台服务器上配置。此解决方式最适合小型系统使用。 基于软件的技术,每台主机仅需要通过应用软件查询是否有存储单元可用,而软件将主机需求重定向至存储单元。因为基于软件的应用通过同样的链路写入块数据与控制信息(metadata),所以可能存有潜在瓶颈,影响主机数据传输的速度。为了降低延迟,应用程序通常需要维护用于读取与写入 *** 作的缓存,这也增加了其应用的价格。服务器虚拟化存储创新:自动化精简配置与重复数据删除 存储技术的两个创新,自动化精简配置与重复数据删除,同样是减少服务器虚拟化环境对存储容量需求的解决方案。这两项革新可以与存储虚拟化结合,以提供牢固可靠的存储容量控制保障。 自动精简配置让存储“走的更远”,可减少已分配但没有使用的容量。其功能在于对数据块按需分配,而不是对所有容量需求进行预先分配。此方法可以减少几乎所有空白空间,帮助避免利用率低下的情况出现,通常可以降低10%的磁盘开销,避免出现分配大量存储空间给某些独立服务器,却一直没有使用的情况。 在许多服务器部署需求中,精简配置可通过普通存储资源池提供应用所需的存储空间。在这样的条件下,精简配置可以与存储虚拟化综合应用。 重复数据删除从整体上检测与删除位于存储介质或文件系统中的重复数据。检测重复数据可在文件、字节或块级别进行。重复数据删除技术通过确定相同的数据段,并通过一份简单的拷贝替代那些重复数据。例如,文件系统中有一份相同的文档,在50个文件夹(文件)中,可以通过一份单独的拷贝与49个链接来替代原文件。 重复数据删除可以应用与服务器虚拟化环境中以减少存储需求。每个虚拟服务器包含在一个文件中,有时文件会变得很大。虚拟服务器的一个功能便是,系统管理员可以在某些时候停下虚拟机,复制并备份。其可以在之后重启,恢复上线。这些备份文件存储于文件服务器的某处,通常在文件中会有重复数据。没有重复数据删除技术支持,很容易使得备份所需的存储空间急剧增长。改变购买存储设备的观念 即使通过存储虚拟化,重复数据删除与精简配置可以缓解存储数容量增长的速度,组织也可能需要改变其存储解决方案购买标准。例如,如果你购买的存储支持重复数据删除,你可能不再需要配置原先规划中那么多的存储容量。支持自动化精简配置,存储容量利用率可以自动提高并接近100%,而不需要管理员费心 *** 作维护。 传统存储购买之前,需要评估满足负载所需的存储能力基线、三年时间存储潜在增长率、存储扩展能力与解决存储配置文件,还有拟定相关的采购合同。以存储虚拟化与云计算的优势,购买更大容量的传统存储将越来越不实际,尤其在预算仍是购买存储最大的限制的情况下。以下是一些简单的存储购买指导: 除非设计中明确说明,不要购买仅能解决单一问题的存储方案。这样的做法将导致购买的存储架构无法与其他系统共享使用。 ·关注那些支持多协议并提供更高灵活性的存储解决方案。 ·考虑存储解决方案所能支持的应用/负载范围。 ·了解能够解决存储问题的技术与方案,例如重复数据删除与自动化精简配置等。 ·了解可以降低系统管理成本的存储管理软件与自动化工具。 许多组织都已经在内部环境中多少实施了服务器虚拟化,并考虑如何在现有存储硬件与服务器上实现私有云。存储预算应用于购买合适的硬件或软件,这点十分重要。不要将仅将注意力集中在低价格上。相反,以业务问题为出发点,提供解决问题最有价值的存储解决方案才是王道。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)