一代处理器——Westmere 与 Sandy Bridge 在英特尔信息技术峰会的主题演讲中,马宏升演示了一个基于 Westmere 的电脑,在诸如打开多窗口同时上网冲浪等简单的日常任务中,它显示出了响应速度的显著提升。
而且,Westmere 是英特尔的第一款 32 纳米处理器,具有历史性意义,因为这款英特尔处理器首次把图形芯片整合到处理器封装中。除了支持英特尔®睿频加速技术(Turbo Boost)和英特尔®超线程技术,Westmere 增加了新的高级加密标准(Advanced Encryption Standard, AES)指令,以便实现更快速的加密和解密。Westmere 已经按计划进入晶圆生产阶段,计划在今年第四季度开始批量生产。
32 纳米Westmere晶圆。jpg
在 Westmere 之后,英特尔将继续进行研发代号为“Sandy Bridge”的32纳米处理器芯片整合。Sandy Bridge 在同一芯片或作为处理器内核的硅片上,集成了英特尔的第六代图形内核,并将用于浮点计算、视频计算以及多媒体应用中常见的处理密集型软件的加速。马宏升展示了一款运行多个视频和三维软件的基于 Sandy Bridge 的系统,这个在很久以后才会面世的产品系列,在早期开发阶段已经能够良好地运行。
马宏升演示了基于“Larrabee”架构的芯片雏形。Larrabee 是未来以图形为中心的协处理器系列产品的研发代号。他还确认,主要的开发人员已经拿到了开发系统。
首款 Larrabee 产品计划在明年上市,它借助英特尔架构的可编程能力,并将大幅提升其并行处理能力。灵活的可编程能力以及充分利用现有开发人员、软件和设计工具的能力,让程序员可以自由地实现完全可编程渲染,从而轻松地实现光栅化、体积光或光线跟踪渲染等各种三维图形处理功能。
通过采用这款产品的英特尔电脑,用户将能够获得震撼人心的可视化体验。马宏升还演示了热门游戏《雷神战争》(Quake Wars: Enemy Territory)的实时光线跟踪版,它运行在 Larrabee 图形内核和研发代号为“Gulftown”仍沿用酷睿品牌的英特尔下一代发烧级游戏处理器上。Larrabee 芯片最初将出现在独立显卡中,在更远的将来,Larrabee 架构将最终与其他技术一起整合到处理器中去。
马宏升还和与会者一起预览了研发代号为“Westmere-EP”的英特尔下一代智能服务器处理器,并介绍了英特尔对使用至强和安腾处理器的高端服务器市场的承诺。马宏升探讨了即将推出的“Nehalem-EX”服务器处理器空前的性能提升,这种提升甚至比目前英特尔®至强® 5500 系列处理器较英特尔前一代芯片的性能提升更为显著。
马宏升也描述了计算、网络与存储在数据中心的融合,分享了以英特尔 10GbE 解决方案引领的融合数据中心 IO 架构的远景看法。英特尔还与其它行业领袖进行了一系列合作,提供优化的平台、系统、技术和解决方案来应对互联网和云服务趋势下的“超大规模”数据中心环境。
马宏升还披露了散热设计功耗(Thermal Design Power, TDP)仅为 30 瓦的全新超低电压英特尔®至强® 3000 系列处理器。作为各种高密度的功率优化平台产品的补充,英特尔还首次公开演示了单路“微服务器”(micro server)参考系统,这有助于微服务器的创新和未来标准的制定。
作为把英特尔备受欢迎的 Nehalem 微架构扩展到新市场的一个例证,马宏升还介绍了日前刚刚披露的“Jasper Forest”系列嵌入式处理器。这款处理器将于明年早些时候上市,专为存储、通信、军事和航空应用而设计,提供更高水平的集成,为这些高密度计算环境节约宝贵的板卡空间和能耗。
最后,马宏升宣布了一款使用英特尔®博锐(vPro)技术的全新电脑管理工具。键盘视频鼠标(Keyboard Video Mouse, KVM)远程控制技术,让 IT人员能够在用户发现问题时进行精准的调查,从而加快诊断速度,减少 IT 人员到访现场次数,并节约成本。
1、linux系统安装
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。例如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与 *** 作系统分别放置在不同硬盘上,以确保 *** 作系统的正常运行。
2、分布式计算平台/组件安装
目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
先说下使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。2)开源组件一般免费,学习和维护相对方便。3)开源组件一般会持续更新,提供必要的更新服务『当然还需要手动做更新 *** 作』。4)因为代码开源,若出bug可自由对源码作修改维护。
再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn,『全名是Yet Another Resource Negotiator』。常用的分布式数据数据『仓』库有Hive、Hbase。Hive可以用SQL查询『但效率略低』,Hbase可以快速『近实时』读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务,Yarn和Hbase需要它的支持。Impala是对hive的一个补充,可以实现高效的SQL查询。ElasticSearch是一个分布式的搜索引擎。针对分析,目前最火的是Spark『此处忽略其他,如基础的MapReduce 和 Flink』。Spark在core上面有ML lib,Spark Streaming、Spark QL和GraphX等库,可以满足几乎所有常见数据分析需求。
值得一提的是,上面提到的组件,如何将其有机结合起来,完成某个任务,不是一个简单的工作,可能会非常耗时。
3、数据导入
前面提到,数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive,也可将数据导入到Hbase』。
4、数据分析
数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。
5、结果可视化及输出API
可视化一般式对结果或部分原始数据做展示。一般有两种情况,行熟悉展示,和列查找展示。在这里,要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引,提供快速列查找。
平台搭建主要问题:
1、稳定性 Stability
理论上来说,稳定性是分布式系统最大的优势,因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上,配置不合适,也可能成为最大的问题。 曾经遇到的一个问题是Hbase经常挂掉,主要原因是采购的硬盘质量较差。硬盘损坏有时会到导致Hbase同步出现问题,因而导致Hbase服务停止。由于硬盘质量较差,隔三差五会出现服务停止现象,耗费大量时间。结论:大数据平台相对于超算确实廉价,但是配置还是必须高于家用电脑的。
2、可扩展性 Scalability
如何快速扩展已有大数据平台,在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中,有时需要增减机器来满足新的需求。如何在保留原有功能的情况下,快速扩充平台是实际应用中的常见问题。
上述是自己项目实践的总结。整个平台搭建过程耗时耗力,非一两个人可以完成。一个小团队要真正做到这些也需要耗费很长时间。
目前国内和国际上已有多家公司提供大数据平台搭建服务,国外有名的公司有Cloudera,Hortonworks,MapR等,国内也有华为、明略数据、星环等。另外有些公司如明略数据等还提供一体化的解决方案,寻求这些公司合作对 于入门级的大数据企业或没有大数据分析能力的企业来说是最好的解决途径。
对于一些本身体量较小或者目前数据量积累较少的公司,个人认为没有必要搭建这一套系统,暂时先租用AWS和阿里云就够了。对于数据量大,但数据分析需求较简单的公司,可以直接买Tableau,Splunk,HP Vertica,或者IBM DB2等软件或服务即可。
-国产芯片市场中,做桌面电脑的数飞腾还算不错,其生产的 FT-1500A/4、FT-2000/4、D2000这几款高效能桌面cpu,能兼容64位ARMV8指令集并支持ARM64和ARM32两种执行模式,被广泛应用在台式电脑、一体机电脑、笔记本电脑、Mini PC、超薄无风扇笔记本电脑、微服务器、各种嵌入式板卡等产品领域,在政府政务办公,金融,轨道交通等行业都被广泛的应用,市场占有率相当不错
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)