《数据密集型计算和模型》第二章大数据时代的计算机体系结构复习

《数据密集型计算和模型》第二章大数据时代的计算机体系结构复习,第1张

数据密集型计算和模型》第二章大数据时代的计算机体系结构复习

《数据密集型计算和模型》第二章的有关内容。主要复习内容为:计算部件、存储部件、网络部件、软件定义部件、虚拟资源管理系统等。

文章目录
  • 大数据时代的计算机体系结构
    • 一、计算部件
      • 1. 多核和众核
      • 2. 异构
      • 3. 什么是CPU-GPGPU
      • 4. 集群(重点)
        • 定义:
        • 特征:
        • 典型的linux集群:
    • 二、存储部件
      • 1. 片上存储器分配的策略(*)
      • 2. 传统的行式存储的不足
      • 3. 列式存储
        • 列式存储主要采用的数据压缩方法
        • 列式存储的一些关键技术
      • 4. 分布式存储
        • 数据分布
        • 负载均衡
    • 三、网络部件
      • 1. 片上通信的五种方式
      • 2. 数据密集型数据中心设计原则(重点)
      • 3. 数据中心互联网络的要求
      • 4. OTV
    • 四、软件定义部件
      • 1. 什么是软件定义部件
      • 2. 软件定义部件的核心(*)
      • 3. 软件定义部件的目标
      • 4. 什么是虚拟化
      • 5. 软件定义存储(SDS)
      • 6. SDS数据管理
      • 7. SDS集群配置的三种方法
      • 8. 软件定义网络(SDN)
      • 7. SDS集群配置的三种方法
      • 8. 软件定义网络(SDN)

大数据时代的计算机体系结构
  • cpu
  • GPU:图形处理器
  • GPGPU:通用型图形处理器
一、计算部件 1. 多核和众核
  • 多核:是指在一个单一的处理器芯片中,集成两个或两个以上的独立中央处理单元,每一个独立的中央处理单元称为一个处理器内核,
  • 众核:通过减少处理器内核的内部复杂程度,在一个芯片上可以集成更多的处理器内核,达到成百上千甚至更多,形成众核处理器。
2. 异构

根据提供计算类型多样性的形式,可将异构计算分为系统异构计算和网络异构计算两大类。

3. 什么是CPU-GPGPU
  • CPU-GPGPU是一种SHC(以单机多处理器形式提供多种计算类型)异构体系结构,在这种体系结构中,GPGPU作为CPU的协处理器来完成图形计算和通用计算,其以外部设备的形式,通过PCI-E总线和CPU通信。
4. 集群(重点) 定义:
  • 集群是一组相互独立的、通过高速网络互连并以单一系统模式加以管理的计算机群构成的系统。
  • 一个集群系统一般可以分为四个部分:计算节点、管理节点、集群管理软件和高速网络。
特征:
  • 高可扩展性、高稳定性
典型的linux集群:
  1. 科学计算集群。·主要是为了开发并行应用程序,用来解决复杂的科学问题。
  2. 负载均衡集群。
  3. 高可用性集群。运行与两个或两个以上的节点上,一个称为主节点,负责任务处理;其他节点称为次节点,通常是主节点的备份。
二、存储部件 1. 片上存储器分配的策略(*)
  1. 通过静态分析的方法,将访问次数比较多的变量分配到片上存储器,加快平均访问数据的速度。
  2. 动态的方法,根据程序执行时数据的使用频率动态地分配存储器。
  3. 把大的数据矩阵进行拆分,分时存储到片上存储器。
2. 传统的行式存储的不足
  1. 在行式数据库中要读取某列数据时,必须读取整行数据
  2. 因为行的长度不相等,修改数据可能会导致行迁移
  3. 当行数据量太大时,可能导致行链
3. 列式存储 列式存储主要采用的数据压缩方法
  1. 行程编码算法
  2. 词典编码算法
  3. 位向量编码算法
列式存储的一些关键技术
  1. 延时物化(元组物化:即将常用的元组或可能用到的逻辑元组由实际物理存储的状态生成为实体化的元组,存储在内存中,在随后查询时,直接读取已经物化的元组)
  2. 成组迭代
  3. 不可见连接:整个过程没有属性或列之间直接的值连接 *** 作,这些直接的 *** 作被位向量直接的逻辑或运算所替代,因此被称为不可见连接。
4. 分布式存储

分布式系统通过连接大量的普通计算机作为存储节点来提供高性能、可扩展的分布式网络存储服务。

  • 底层主要涉及数据分布、负载均衡、容错等技术
数据分布
  • 分布式存储能将数据分布到多个节点上,并且在多个节点之间实现负载均衡。
  • 方式:哈希分布、顺序分布。
负载均衡

为什么要进行负载均衡?如何进行负载均衡?

  • 解决并发压力,提高应用处理性能
  • 提高故障转移,实现高可用
  • 通过减少或添加服务器的数量,提供网站伸缩性
  • 安全防护
三、网络部件 1. 片上通信的五种方式
  1. 共享总线
  2. 交叉开关
  3. 点对点
  4. 片上网络
  5. 片上混合互连
2. 数据密集型数据中心设计原则(重点)
  1. 互不干涉网络
  2. 平面网络拓扑和多路径
  3. 分层数据中心
3. 数据中心互联网络的要求
  1. IP地址保留
  2. 独立传输
  3. 带宽优化
  4. *** 作简单
4. OTV

OTV:叠加传输虚拟化。就是一个用以在数据中心间提供LAN扩展的架构解决方案

功能:

  1. 可以将不同地理域的数据中心站点构建成统一的虚拟计算资源群集,实现工作主机的动态迁移、业务d性以及较高的利用性。
  2. 提供LAN扩展功能
  3. 具有基于自动检测的多归属能力。
四、软件定义部件 1. 什么是软件定义部件
  • 软件定义部件或软件定义基础设施就是尽量将计算、存储、网络甚至数据中心等硬件资源统一抽象、虚拟化为资源池,使得资源的管理者和使用者能够脱离硬件资源物理结构所造成的隔阂与束缚,统一、灵活地管理和使用这些资源。
2. 软件定义部件的核心(*)
  • 软件定义部件的核心就是:要强化体系结构对服务器虚拟化、存储虚拟化和网络虚拟化的支持,并在此基础上进一步提升对这些资源管理和使用的自动化程度。
3. 软件定义部件的目标
  • 软件定义部件的最终目标是:将虚拟化扩展至数据中心的计算、存储、可用性、网络及安全等所有资源及服务上。
4. 什么是虚拟化
  • 抽象的说,虚拟化就是资源的逻辑表示,不受物理限制的约束
  • 具体来说,虚拟化技术的实现形式是在系统中加入一个虚拟化层,虚拟化层将下层的资源抽象成为另一形式的资源供上层使用。
5. 软件定义存储(SDS)
  • 主要要求存储功能要和存储硬件本身分离,使用智能软件在标准硬件中实现自动的、基于一定策略的针对应用需求的存储服务。
6. SDS数据管理

通常包括三个方面的管理

  1. 存储空间管理
  2. 数据安全性控制
  3. 空间使用控制
7. SDS集群配置的三种方法
  1. 共享磁盘
  2. 网络簇
  3. 授权全球通信
8. 软件定义网络(SDN)
  • 设计理念是将网络的控制平面与数据转发平面分离,并实现可编程化控制
  • 典型架构分为三层:上层为应用层、中间层为控制层、最底层为基础设施层。
  1. 数据安全性控制
  2. 空间使用控制
7. SDS集群配置的三种方法
  1. 共享磁盘
  2. 网络簇
  3. 授权全球通信
8. 软件定义网络(SDN)
  • 设计理念是将网络的控制平面与数据转发平面分离,并实现可编程化控制
  • 典型架构分为三层:上层为应用层、中间层为控制层、最底层为基础设施层。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5688965.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存