- DAS
- NAS
- SAN
- GFS
- MapReduce
- BigTable
- HDFS
- 能源
- 降温
- 成本构成
direct-attached storage 直接附加存储
与个人电脑中的硬盘一样,服务器主机跟存储设备一般通过SCSI连接
DAS的本质特征在于,服务器负责IO,服务器跟存储设备之间没有路由器/交换机。
我个人理解,这纯粹就是单服务器的存储设备被外置、堆叠。
network-attached storage 网络附加存储
NAS由存储设备和专用服务器组成。专用服务器不会运行其它软件,只负责对外提供文件级存储服务。
而且,不同的计算机都可以使用NAS的服务,这是一种共享。
storage area network 存储区域网络
对外提供存储块级存储服务。
不需要像NAS那样将数据封装为tcp/ip包然后用以太网传输,因为根本就不用tcp/ip协议,而是用块协议,无需任何处理,直接用SCSI或者光纤传数据。
关于这些区别,我看网上意见并不统一。可能有误。
GFS- 节点故障是常态,而非异常
- 更大的 *** 作粒度
- 以追加写代替随机写,以改善性能、提供原子性
- 中心化,数据流控制流分离
- 输入文件分割
- 任务分配
- map worker用map函数处理key value,周期性写入自己磁盘中key对应的分区,分区地址告知master
- reduce worker从master处获取地址信息,通过远程过程调用读取map结果
- reduce worker对同一个key下的结果进行排序
- reduce worker用reduce函数处理并输出
- 通知master任务完成
- 行按字典序排序(反转后的域名借助字典序可以自然形成空间聚集)
- 行内读写是原子的
- 行内可以动态分tablet,tablet是数据分布和负载均衡的最小单位,解决热点问题
- 列族是访问控制的最小单位
- 列族中的列通常是同一数据类型
- 列族在运行时一般不变
- 按时间戳从新到旧排列,可按数量或者时间滚动覆盖
BigTable的文件系统是GFS,存储格式是SSTable,组服务是Chubby。
逻辑上是稀疏矩阵,物理上按列存储。
Hadoop的三个组成要素,HDFS(基于GFS),Hbase(基于bigtable),MapReduce(基于google mapreduce)。Hadoop是三驾马车的Java开源实现。
- 节点故障是常态,而非异常
- 批处理,牺牲时延追求吞吐量
- 单个文件大,文件数量多
- 一次写入,多次读取
- 移动计算比移动数据更高效,让计算发生在数据附近,而不是传输数据
- 跨平台
下面的部分,与计算机科学基本可以说是没啥关系,看看就行。
能源数据中心的供能不能中断。发电机、电池都要有。
降温在架空地板中铺设水冷管道。
机柜摆放形成冷热通道:
正面进冷空气,背面出热空气。
集装箱式的数据中心降温系统效率更高。
有一个叫能耗比的指标,即数据中心总能耗和IT设备能耗的比值。IT设备的能耗是我们真正有用的能耗,其它能耗都只是为了维持IT设备的运行。显然,应追求低能耗比。
如果散热系统高效,或者IT设备耐高温,则能耗比会更低。
能源15%,服务器45%,基础设施25%,网络设备15%。
网络设备主要是路由器、交换机。
基础设施包括能源设备、降温设备、安保设备等。
一般数据中心会建在电费便宜、温度低的地方。据说已经有海底数据中心。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)