云计算与大数据作业

云计算与大数据作业,第1张

云计算与大数据作业 第一章 云计算

云计算的定义:
维基百科:云计算是一种动态扩展的计算模式,通过计算机网络将虚拟化的资源作为服务提供给用户。

什么是云计算:
像水、电、煤(资源性产品)一样利用你的IT资源(计算机存储网络资源)
关键词:按需使用、超大规模、高d性
定义:指按需求使用IT资源和应用程序,通过互联网,按使用量付费。

四种云:
公有云——提供公共的IT资源
缺点:保密性低
私有云——提供给政府、学校等地
优点:保密性高
社区云——研究人员使用
混合云——包含以上任意两种

生活中的例子:
出行论:
自己买车开车 混合云
吃饭论:
餐厅 公有云
在家做饭——私有云
在家+厨师——混合云
酒店论:
酒店——公有云
家——私有云

云计算的基本特征:
资源无限量供应
提供自助式服务
远程提供服务
资源可控
按使用量付费

云计算发展背景:
20世纪60年代,计算机革命
20世纪90年代,互联网革命
1994年→web(单向传递)
2004年→web(双向传递)
2010年,移动互联网革命

云计算的概念模型:
用户的公共性
设备的多样性
商业模式的服务性
提供方式的灵活性

云计算下的IT建设:
特点:
开放硬件平台,软件和硬件解耦
分布式设计,软件定义储存
IT建设的传统IOE架构,转向互联网架构
集中资源池的共享,虚拟化,分时共享
动态调配,d性伸缩,低成本,标准化硬件
芯片新介质取得突破(云计算IT的基础)
优点:省时、省力、省钱、省电、省人、省地

云计算的特点:
虚拟化技术
动态可扩展性
按需部署
灵活性高
可靠性高
性价比高
地理分布
先进安全技术

云计算的主要服务模式:
第一层:IaaS 第二层:SaaS 第三层:PaaS
1.IaaS(基础设施即服务)
关键技术:虚拟化技术
2.PaaS(平台及服务)(编程)数据库服务、web技术
特点:(1)简化开发人员
(2)提供PC端或软件端的开发套件
(3)丰富的开发环境
(4)完全可托管的数据库服务
(5)可配置式的应用程序的构建
(6)支持多语言的开发
(7)面向市场
关键技术:(1)分布式计算
(2)分布式存储
3.SaaS(软件即服务)
关键技术:多租户技术
4.三种服务的区别
(1)IaaS——最底层
提供基础设施服务
(2)PaaS——提供软件
部署平台
(3)SaaS——拿来即用
例:云计算服务=做饭做菜
云计算服务提供商=饭店
IaaS=提供厨房、锅具等,不提供食材和技术
PaaS——提供厨房、切好的食材,不提供:技术
SaaS:提供厨房、食材、技术
IaaS——租车
PaaS——租车+司机
SaaS——坐公交

第二章 大数据

大数据的定义:
在一定时间范围内用常规软件工具进行捕捉,管理和处理数据集合。
经典案例:1.啤酒和尿布
2.谷歌和流感
大数据的范围:采集、储存、搜索、共享、传输、分析和可视化
内存:运行速度
储存:储存容量
海量数据产生:(1)来自大人群互联网
(2)来自大量传感器机械
(3)科学研究及行业多结构专业数据

大数据的产生:
1887年—1890年:电功器
19444年:预见大数据
1997年:用大数据描述超级计算机产生的大量信息
2003—2006年:谷歌提出大数据可重用方案
2008年:提出大数据概念
2009年:大数据逐渐走进互联网
2012年:大数据成为一种新的资产类别
2013年大数据元年

数据量单位:
KB>MB>GB>TB>PB>EB>ZB>YB>NB>DB
1zb=10亿TB
注:单位以PB衡量的数据可成为大数据
1位(二进制0或1)
1字节(8位)——1个英文字母或二进制8位数
1文字=2字节=16位

第四范式:
第一范式(实验)→第二范式(理论)→第三范式(计算)→第四范式(数据)

大数据的4V特征:
大量化:存储量大、增量大
多样化:来源多(搜索引擎、社交网络、通话记录、传感器)
格式多:结构化数据、非结构化数据
快速化:高速数据1/0———互联网连接设备数量增长
价值密度低

大数据的主要应用:
(1)互联网企业
(2)智能电网
(3)车联网应用大数据技术
(4)医疗大数据

企业推动大数据行业发展:
(1) Google
(2) IBM
(3) 微软
(4) Oracle
(5) EMC
(6) 阿里巴巴
(7) 华为
(8) 腾讯
(9) ETC

大数据的关键技术:
1.大数据预处理技术:
数据采集
数据存取
基础架构支持
计算结果展现
2.大数据存储技术:
存储设备能持久可靠的存储数据
提供可伸缩接口
提供高数查询,更新 *** 作
3.大数据分析技术:
数据处理
统计与分析
数据挖掘
模型预测
4.大数据计算技术

大数据的典型计算架构:
Hadoop→处理本地数据
spark→收集并更新
storm→延迟毫秒级

第三章 虚拟化技术

什么是虚拟化:
作为一种计算机资源管理技术,将各种的IT实体资源抽象转化为另一种形式的技术
云计算与虚拟化有什么关系
云计算1.0→以虚拟化为核心

云计算2.0→以资源为核心

云计算3.0→以应用为核心

云计算:一种服务

虚拟化:一种技术基础

物理机: *** 作系统(Host os)硬件(Host Machine)

虚拟机: *** 作系统(Guest os)虚拟机(Guest Machine)VMM(虚拟监控器) 硬件(Host Machine)

虚拟化特点:
(1)分区→可分为多个虚拟机

(2)隔离→虚拟机与虚拟机之间相互独立

(3)封装→独立的文件夹形式

(4)相对于听见独立→屏蔽底层硬件不兼容问题

虚拟化类型:
(1)寄居虚拟化:在主 *** 作系统上安装和运行的程序

特点:

1.简单易于实现

2.安装和运行应用程序时,依赖于主 *** 作系统对设备的支持

3.有两层OS,管理开销大,性能损耗大

4.虚拟机对各种物理主机的调用都是通过虚拟化层和宿主OS一起调用完成

(2)裸金属虚拟化→在硬件上不是虚拟化层

特点:

1.不依赖于 *** 作系统

2.支持多种 *** 作系统

3.依赖于虚拟层内核心和服务控制台进行管理

4.需要对虚拟层进行内核开发

(3)混合虚拟化→插入内核模块

特点:

1.相对于寄居虚拟化性能高

2.相对于裸金属虚拟化不需要内核开发

3.支持多种 *** 作系统

4.需要底层硬件支持虚拟扩展功能

虚拟化架构:
全虚拟化、半虚拟化、硬件辅助虚拟化

(1)全虚拟化:即所抽象的VM具有完全的物理特性,虚拟化层负责捕捉CPU为指令,为指令访问硬件充当媒介

特点:

1.OS无需修改

2.速度和功能相比较好,使用非常简单

3.移植性好

(2)半虚拟化:

特点:

1.架构更简单

2.对OS进行修改,用户体验比较麻烦

3.速度上占一定优势

虚拟化技术的优势和劣势

(1)优势:

减少物理资源的投入,节约成本

虚拟数据资源迁移方便

提高物理资源的使用率

更加环保,节省能源

易于自动化维护和 *** 作,减少维护成本

数据安全更有保障

劣势:

目前业界没有统一的虚拟化技术标准平台,没有开放的协议

如果没有对数据进行备份,应用虚拟化技术会存在一定的风险

虚拟数据中心的迁移,特别是对在线服务的迁移,对用户影响巨大

全虚拟化与半虚拟化距离对比

KVM(性能) Xen(完全)

全虚拟化 半虚拟化

内置在内核中 需要修改内核

便于版本安装、升级和维护 更新版本,重新编辑整个内容

性能好 隔离好

第四章 数据中心

数据中心的概念:
数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。

数据中心的组成部分:
机房(建筑物本身)、供配电系统、制冷系统、网络设备、服务器设备、存储设备等。

发展历程
巨型机时代:
具有很强的计算和处理数据的能力,主要特点表现为高速度和大容量,配有多种外部和外围设备及丰富的、bai高功能的软件系统。 在一定时期内速度最快、性能最高、体积最大、耗资最多的计算机系统。

数据中心的基本单元----服务器
塔式服务器:
塔式服务器的机箱比较大,服务器的配置也可以很高,冗余扩展更可以很齐备,所以它的应用范围非常广,应该说目前使用率最高的一种服务器就是塔式服务器,通用服务器一般都是塔式服务器

机架式服务器:
在有限的空间内部署更多的服务器直接关系到企业的服务成本,通常选用机械尺寸符合19英寸工业标准的机架式服务器。机架式服务器也有多种规格,例如1U(4.445cm高)、2U、4U、6U、8U等。通常1U的机架式服务器最节省空间,但性能和可扩展性较差,适合一些业务相对固定的使用领域。4U以上的产品性能较高,可扩展性好,一般支持4个以上的高性能处理器和大量的标准热插拔部件。管理也十分方便,厂商通常提供人相应的管理和监控工具,适合大访问量的关键应用,但体积较大,空间利用率不高。

数据中心选址:
数据中心的选址从地理位置的选址上来看,近二十年数据中心的选址经过了三个阶段。第一阶段,选址在市中心。早些年还没有数据中心这一名词,当时各大单位承担数据中心这一职能的一般叫计算中心或信息中心,机房的规模不大,几乎都在500平方米以下。这时候的机房一般都位于市中心的各大办公楼中,比如银行、保险、电力、政府机关等单位,其机房与办公楼都融为一体。即使到今天,在大街小巷的办公大楼中仍然有大量微型的数据中心在运行。第二阶段,选址在郊区。随着互联网的发展,数据量开始井喷,传统的机房已经不能满足需要,这个时候的机房选址就开始呈现郊区化,几千平方米的数据中心开始出现,但由于中心城市土地资源极度稀缺,这些几千平方米的数据中心就只能在郊区安家。许多大型机构像银行、保险等开始呈现全国数据集中化的趋势。运营商是这类数据中心的建设鼻祖,早期各大运营商的通信枢纽机房慢慢演变为全业务机房,不仅承担着语音通信数据流转的核心作用,还承担着辖区内用户数据、计费数据、业务数据以及互联网数据处理的作用,该类机房的面积一般在5000平方-10000平方米。后来随着互联网业务的发展,托管业务需求大量出现。所谓托管,就是指一些互联网公司租用运营商的机房,将自己的设备存放在运营商的机房中,由运营商提供相应的机房基础设施及网络的接入,各类IDC机房开始涌现。随着互联网公司的不断壮大,托管的设备呈现井喷之势。从成本及数据安全性考虑,一些大的互联网运营商开始筹建自己的数据中心,比如腾讯第一代数据中心在2006年前后起步。该类数据中心的特点是直接租用运营商的传输链路,在数据中心内部划分部分区域作为运营商传输机房,直接接入到运营商的网络中。比如笔者工作过的某行数据中心,就位于上海外围。该地区集中了各大银行总行级的数据中心,每个银行的占地规模都超过100亩,如此大的用地在市中心几乎不现实。第三阶段,选址异地远程化。数据中心开始大量的异地远程化建设,从地理位置上看,逐步远离一二线城市。上万甚至数万平方米的数据中心开始大量出现,数据中心的耗电量越来越大。而数据中心的制冷系统是数据中心的耗电大户,为了节约能源、节省成本开支,各大互联网巨头开始在温度低、散热条件好、电费低的区域大规模建设数据中心。在第三阶段有两个数据中心建设的热门区域,一个是内蒙古,一个是贵州。实际上在贵州之前,内蒙古就成为了各大互联网企业的香饽饽。内蒙古的呼和浩特、鄂尔多斯、乌兰察布等地方都密集开始了IDC的建设。随着第三阶段数据中心的建设发展,也进一步促进了国家级互联网骨干直联点的建设。国家级互联网骨干直连点作为国家重要通信枢纽,主要用于汇聚和疏通区域乃至全国网间通信流量,是我国互联网网间互联架构的顶层关键环节。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5706531.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存