什么是基础数据信息平台

什么是基础数据信息平台,第1张

按订单生产的时代已经结束,产业革命的时机业已成熟。 James M Kaplan、Markus Loffler和Roger P Roberts

实现分布式计算这一挑战性转变以来的十几年,基础设施小组在管理客户端-服务器和以网络为中心的架构方面发挥着越来越重要的作用。

为了应对市场变化,有些领先的企业开始采用一种全新的基础设施管理模式: 更倾向于提供现货,而不是按订单生产。有了这种模式,满足IT需求就像按邮购目录购物一样简单。成功转变的公司可获得巨额商业利润。不过,实施这种转变需要进行重大的组织变革。应用程序开发人员必须精于预测和控制需求,以便基础设施小组可以更加严密地管理产能。基础设施小组必须培养产品管理和定价的新技能,并引入网格计算和虚拟化之类的新技术。首席信息官则应当实施新治理模式来管理新基础设施架构。

成功案例

德国电信公司从实践中切实体会到这些挑战: 在过去18个月里,为了在IT供求之间取得平衡,公司在两个分部实施了这种新的基础设施管理模式。与大部分公司一样,德国电信公司过去的IT基础设施由多个应用程序孤岛组成。如今,由于准确预测用户需求至关重要,新设置的产品经理必须通盘考虑所有应用程序,以评估总的业务需求并生产正确的产品。此外,他们还必须与基础设施小组紧密合作,以便协调基础设施资产(例如硬件、软件和存储设备)的供求。

德国电信公司和其他公司的经验表明,创建下一代基础设施包括三方面的举措: 划分用户需求、在业务单位中开发产品化服务、创建共享工厂以简化IT的交付流程。

划分用户需求

大型IT组织往往为数以千计的应用程序、数以百计的物理站点和数以万计的最终用户提供支持。这三个组成部分都是决定基础设施需求的关键: 应用程序需要服务器和存储设备,站点需要网络连接,用户想要访问的台式机、笔记本电脑、个人数字助理(PDA)等等。为了实现这些部分的标准化,IT组织首先必须深入了解基础设施服务的当前需求状态,以及需求最有可能的发展趋势。然后,将需求划分为对商业用户有意义的类别,如正常运行时间、输入输出总和以及扩展性。

这样分组以后,大部分应用程序都可以归入相对较小的集群中。例如,制药企业会发现某业务单位的大部分现有及规划应用程序都属于五大类别之一。相反,典型的批发银行应用程序组合则可以分为更多类别,因为其需求范围更广。

尽管差别明显,但物理站点和用户的需求也可以采用类似方法分类。例如,一家营销服务公司在评估了自己的网络架构后将其站点划分为: 100个座席以上的办公室、25到100个座席的办公室以及少于25个座席的远程办公室。一家有线系统运营商则将其用户分为: 需要“指引支援”的高级主管、专业职员、呼叫中心话务员和现场技术员。

大多数公司都发现,在对需求进行分类时,确定应用程序、站点和用户对基础设施的具体需求是关键挑战。主要的问题包括需求的时间和频率、用户数量、可接受的停机时间,以及速度、扩展性和流动性的重要意义。

使产品标准化

在评估当前需求和未来需求之后,基础设施小组便可以为以上三个组成部分开发一套可重复使用的产品化服务: 应用程序的管理和存储产品、最终用户的访问产品(如台式机和笔记本电脑)以及各个站点的网络连接产品。对于上述三条产品线中的任何一条,基础设施小组都必须在服务组合和产品层面制定一系列决策。

在服务组合层面,应当以优化资源和成本最低化为出发点,对产品供应的范围、深度和广度做出决策。如有例外情况,必须提前详细说明。例如,基础设施小组可以决定拒绝提供产品去支持要求非常苛刻的应用程序,比如超低延迟处理。这些应用程序可能通过“手工”,“从头开始”建构更好。其他应用程序,如遗留的应用程序,如果运行良好且不易于接入到新的硬件,则不将其纳入新模式可能更好。基础设施小组还应该决定如何引入新技术,以及如何转移现有比较容易移动的应用程序。

在产品层面,基础设施小组必须确定每种产品的功能、服务水平和价格。以应用程序支持产品为例,必须为每种产品指定编程语言、可接受的停机时间以及基础设施的使用价格。该使用价格取决于基础设施小组决定如何对计算、存储、处理器和网络使用收取费用。基础设施小组必须考虑其定价模式是否应该为准确预测需求的用户提供折扣,或通过战略定价促使用户选用特定产品。

供应方: 创建共享式工厂

传统的按订单生产模式限制了基础设施部门优化服务交付的能力。交付包括三个组成部分: 部署、运行和支持应用程序与技术的运营流程、自动化这些运营流程的软件工具以及安置人员和资产的设施。

大多数企业的架构和技术都存在差异,因此不可能在各个系统中统一使用可重复的流程。这一问题阻碍了效率和自动化,限定了通过低成本站点远程执行的工作量,从而限制了成本进一步节约的范围。

但在下一代基础设施模式中,应用程序开发人员只会指定服务需求,而不会对选择什么基础技术或流程来满足需求进行干涉。例如,应用程序可能需要高速网络存储,但开发人员既不知道也不关心由哪个供应商提供该存储介质。这一概念并不新鲜,正如在家庭电话线上使用呼叫等待的消费者一样,他们并不知道本地电信公司最近的中心站使用的交换机是来自朗讯还是北电。

由于基础设施部门现在可以自行选择使用哪些软件技术、硬件和流程,他们可以重新考虑并重新设计效率最佳的交付模式。通过使用成文的标准化流程,基础设施部门可以着手研发一套综合软件工具来实现运营自动化。随后,通过利用其流程和自动化工具,基础设施部门可以开发集成站点策略,实现数据中心需求的最小化,以便更多的部门可以在低成本站点(甚至海外)执行远程 *** 作。

创建新的组织

首席信息官应当开展哪些变革来利用这些新的机遇?下一代基础设施对于基础设施组织的职能、责任和治理影响重大。

最重要的新职能属于产品经理和工厂设计师,前者负责确定产品和产品组合,后者则负责设计共享流程以部署、运营和支持这些产品和产品组合。

组织结构也必须变革。条块分割的专职部门中的管理人员通常关注具体的技术平台――大型计算机、中型计算、分布式服务器、存储以及语音和数据网络。这些专职部门应该给负责基础设施绩效和服务交付的多职能团队让路。

首席信息官还必须建立新颖的治理机制,以处理容量规划、新服务推出和投融资问题。尽管德国电信公司选择了保留现有的治理结构,但许多企业都创建了企业级基础设施委员会,以确保各业务单元的产品和服务水平保持一致。这种一致性对保持低成本和优化绩效至关重要。为确保新的基础设施高效运行并持续改善性能,IT***应当重点做好以下五个重要工作: 1 需求预测和容量规划;2 筹资与预算;3 产品组合管理;4 发布管理;5 供应及供应商管理。

作者简介:

James Kaplan 是麦肯锡全球IT咨询业务部副董事,专长IT基础设施咨询,在纽约工作。Markus Loffler 是麦肯锡全球IT咨询业务部副董事,专长IT基础设施和架构,在斯图加特工作。Roger Roberts 主管麦肯锡在北美的IT架构咨询业务,专长高科技和工业行业,在硅谷工作。

随着国内企业数字化转型加速,企业纷纷上云,数据存储量呈爆发式增长。传统存储扩展性差、成本高等局限性愈发明显。软件定义存储(Software Defined Storage,以下简称SDS)以虚拟化方式将各种存储资源抽象化、进行池化整合,通过智能化管控软件实现存储资源的按需分配。软件定义存储重新定义了存储架构,以扩容便捷、成本较低等优势,成为存储领域的重要发展方向之一。

深圳市杉岩数据技术有限公司(以下简称“杉岩数据”或“杉岩”)是国内软件定义存储领域的领导者之一。IDC最新发布的《2019 Q4 中国SDS市场报告》中,杉岩数据在对象存储市场份额第三,占比163%;在块存储市场份额第四,占比69%。

杉岩数据成立于2014年9月,公司以新一代智能分布式存储技术为核心,致力于提供领先的面向不同业务环境的企业级存储方案,帮助用户轻松应对IT向云迁移的存储挑战,为大数据时代的商业决策提供智能存储,打造云计算、人工智能、物联网等领域的数据存储基石。

杉岩数据致力于帮助用户应对数据存储量、访问量以及数据管理复杂度,帮助用户建立以存储虚拟化和计算虚拟化为核心的云计算基础设施环境,并逐步提供数据处理、挖掘、智能分析等方面的大数据专业系统和服务。

2020年7月8日,公司宣布获得B+轮15亿元最新融资,本轮融资由大型央企中远海运领投,襄禾资本、无锡金投跟投。借助本轮融资,公司将围绕数据存储、数据管理、数据价值的客户价值模型,持续加大产品关键技术的研发投入、垂直领域的市场拓展、人才引入以及产业生态链的建设,为用户的数字化转型提供全面赋能。

杉岩数据融资情况

数据来源:IT桔子

杉岩数据创始团队来自华为,目前员工近200名,超过60%为研发人员。公司基于分布式存储架构,提供海量对象存储(StandStone MOS)、统一存储平台(StandStone USP)、超融合一体机(StandStone HyperCube)、安全存储一体机(SandStone HuaYan)四款产品。

海量对象存储(StandStone MOS)是面向企业级海量非结构化数据的全分布式存储产品,在海量数据时代,典型应用场景包括企业内容管理、影音数据存储分析、大数据存储与分析、人工智能应用等。

统一存储平台(StandStone USP)提供标准的块存储和文件存储服务,可以同时支持各种虚拟化应用、数据库的事务处理和文件资源的共享存储,满足关键业务和众多应用的不同存储需求。

超融合一体机(StandStone HyperCube)是基于超融合架构的IT基础设施平台,遵循开发架构标准,融合计算、存储为一体,形成标准化的超融合单元,多个超融合单元通过网络汇聚成数据中心的基础架构。超融合一体机预集成和优化了主流虚拟化和数据服务,通过一站式交付,实现企业业务快速上线。

安全存储一体机(SandStone HuaYan),是杉岩在国产替代趋势下推出的高性能存储服务器。该服务器基于国产化软硬件生态,集成杉岩自主研发的分布式存储软件,广泛适用于政府、国防军工、航空航天、金融、教育、医疗等多个应用领域。

杉岩数据通过4款产品,以用户真实需求为导向,满足多业务场景用户的存储需求,成立近六年,实现2500PB+交付容量数据零丢失的成绩,以高质量的产品和服务赢得客户信赖。目前,杉岩数据已服务10余行业的500+用户。

杉岩数据软件定义存储产品、场景与行业

近日,融中研究采访了杉岩数据创始人兼CEO陈坚,就杉岩数据的产品及技术、市场应用、存储行业格局及未来发展趋势进行了深度交流。

访谈内容分享如下:

1

不只是存储优化

以数据为中心的客户价值金字塔模式

将智能存储的进阶赋能演绎到极致

融中研究:

“SandStone是一种橙红色石头,由沙粒经过多年不断沉积重新排列而成。SandStone 生动地诠释了‘分布式架构’的形成。”为什么用这个比喻来强调“分布式架构”?有什么特殊含义?

陈坚:

SandStone对我们确实意义深远。实际上,我们公司名称的来源与“Sand Stone”紧密相关。杉岩二字,来源于Sand的音译杉,以及Stone的意译岩。取名“SandStone”是因为我们做的是基于P2P的分布式存储架构,分布式存储的本质就是把分散的磁盘硬件聚合起来,形成一个很大的存储资源池。“SandStone”生动地诠释了“分布式架构’的形成,每个磁盘所在的服务器节点就像一粒沙子,通过杉岩数据的软件聚沙成石,形成一个稳定可靠的存储系统。

SandStone不仅代表了产品的特点,实际也代表了我们的文化、经营理念。从公司内部来看,每一个员工就像一粒沙子,大家团结奋斗、紧密协作,凝聚成一个有机整体,使得整个公司像石头一样坚不可摧;从外部合作伙伴的拓展来看,以杉岩为中心,将周围的合作伙伴聚在一起形成生态圈,每一个伙伴也是一粒沙子,通过不断吸纳聚合,构建稳定的生态圈。因此,SandStone所代表的团结奋斗与凝聚力内核,已内化成了公司企业文化的一部分;SandStone蕴含的分布式理念,也切合了公司与合作伙伴的生态建设理念。

融中研究:

杉岩是做存储的,为什么公司取名为杉岩数据而不是杉岩存储呢?智能存储与传统存储的主要区别是什么?杉岩的智能存储方案有什么特点?

陈坚:

之所以叫杉岩数据而不是杉岩存储,是因为我们带给客户的价值不只是存储的优化,而是以数据为中心的智能存储赋能,通过我们的存储系统,解决客户在AIoT、5G时代海量数据的存储、管理以及使用方面的问题。

针对智能存储,杉岩数据构建了一套以数据为中心的客户价值金字塔模型,最底座是存储,作为数据的抓手;中间层是数据的管理,作为内涵;最顶层为未来的智能化应用提供准备及服务,我把它叫做外延。

具体来说,第一层即数据存储的智能化。存储侧的智能,就是让客户使用更加简单。传统存储像烟囱,每一个业务系统配一套存储,客户的运维非常困难。分布式存储则是一个存储池,客户面向的是一套承载了不同应用数据的存储集群,孤立的烟囱不再存在。在存储集群里面的故障、性能、容量等告警,都是由存储系统内部智能化完成,同时还保障数据的可靠性、安全性以及访问性能。

第二层,数据管理的智能化。用户存数据后,要管数据。我认为数据是有生命力的,像人一样有从生到死的过程。医疗影像数据是一个典型的例子:病人拍完CT、X光产生的影像数据马上要被用于辅助医生寻找病症、病灶,这时数据是“热”的。这一次病好后,数据访问频率下降,“热”数据变为“温”数据。病人彻底康复后,数据变“冷”。对“热”数据,为了保证访问性能,相应的软硬件配置都非常高,价格也高。“冷”数据如果同“热”数据一样存储,性价比较低。医院一般将冷数据归档到公有云或蓝光等单位存储成本相对较低的存储介质中。这个例子正好反映了数据全生命周期的智能化管理。

在未来海量数据时代,数据的管理非常关键。除了数据全生命周期的管理,杉岩还能实现数据智能化的统一管理,包括:对客户的传统存储和杉岩的分布式存储的统一管理,保护客户对传统存储的原有投资;对公有云、私有云数据的统一管理,实现数据的自由流动;对边缘设备与中心设备数据的统一管理,实现数据的相互协同。

第三层,金字塔的顶端,是数据挖掘的智能化。数据被存储、管理,最终都是为了信息和价值的挖掘。目前越来越多的企业借助AI、机器学习、深度学习这些算法来使用和挖掘数据价值。杉岩的存储系统,包括我们的对象存储,都为海量数据的挖掘和使用去赋能。当然,杉岩不是要做AI,而是为智能化去赋能。这体现在两个方面,第一,我们的存储系统里面自带数据处理引擎,对业务需要使用的数据进行预先处理。第二,我们为AI的训练、数据清洗、数据的准备阶段提供了友好的统一管理、存储平台——数据处理引擎“AI in MOS”,还有面向需要对AI进行训练、学习、应用的公司提供的存储平台——“MOS for AI”。

融中研究:

杉岩在数据的存、管、挖各个层面的资源投入如何?杉岩在技术底层的优势有哪些?

陈坚:

在存、管、挖三个层面,杉岩起步聚焦于“存”,致力于为客户提供一个高可靠、高安全、高性能、高可扩展性的分布式存储系统,“存”也是目前投入最大的一块。在“存”方面,目前我们的核心竞争力主要体现在产品性能更高,可用性、可维性更强,特别是在数据的安全性方面,我们积累了很多经验。

在管方面,随着客户持续增加,杉岩面临的需求也不断增加,我们通过与客户的互动交流,了解客户实实在在的需求与痛点,并提出创新的解决方案。目前我们一些特有的产品功能已经落地了,这是很多企业包括一些大厂都不具备的,比如说我们对传统存储与分布式存储的统一管理、对数据的全生命周期管理等等。

最上层,未来数据的智能应用层面,在智能数据处理引擎“AI in MOS”产品上,我们也在加大投入,今年就会有实际的项目落地。

融中研究:

您刚才讲到,在数据挖掘上会加大投入,那么杉岩在这一块的发展目标如何?如何与数据挖掘专业公司竞争?

陈坚:

我先做一个澄清,杉岩的产品是有边界的,我们不会像大数据公司一样,比如也去做一个精准营销,我们是为精准营销赋能。像之前提到的数据处理,即使杉岩不做,这些公司还是要做的,杉岩其实是在帮这些公司做加速。另一方面,在赋能大数据挖掘的过程,杉岩主要针对非结构化数据赋能。以前的基于数据库的结构化数据,像BI、数据仓库,这类数据的挖掘已经有非常成熟的解决方案,杉岩的目标不在于此。我们强调对象存储就是因为对象存储是存储非结构化数据最佳的载体。我们通过对非结构化数据的AI挖掘、使用赋能实现差异化。

融中研究:

在当前软件定义存储,存在哪些技术局限,大概何时能够突破?杉岩在这块有哪些领先优势?

陈坚:

软件定义存储的概念相对于传统存储,其设计哲学和传统存储刚好相反。传统存储以硬件为核心,存储系统的数据可靠性高度依赖硬件架构的设计。软件定义存储,假设硬件是不可靠的或可靠性没那么高。

软件定义存储的性能更高、扩展性更强、更灵活。但任何一个架构、系统都会有自己的优缺点。软件定义存储在技术上的局限性:第一,难以将硬件的性能发挥到极致。第二,在存储集群大了以后,整个集群的管理、运维也是一个挑战。一般的企业没有专门的IT运维人员或运维水平有限,在海量数据时代,存储产品能不能让企业实现简单运维,也是一个挑战。

杉岩对传统存储和分布式存储都有很深入的理解,既有传统存储最核心的架构师和工程师,也有深耕分布式存储领域近10年的架构师。面对这些局限,杉岩也在做一些事情,比如在软硬结合方面,与硬件供应商一起做软硬垂直优化;在大规模集群存储系统的管理和运维上,借鉴一些AI的算法能力,让运维更加智能化、自动化。

2

立足场景寻找最佳匹配行业

以质量和服务构建客户信任

加速市场拓展

融中研究:

杉岩已服务10+行业的500+客户,从市场策略来看,杉岩数据在这些行业是齐头并进还是有所侧重?主要的优势行业有哪些?未来发展或者延伸的重点行业还有哪些?

陈坚:

存储系统作为一个标准化产品,没有太多的行业属性。但是软件定义存储有它的最佳应用场景。

杉岩数据依托场景构筑产品和解决方案,再通过最佳应用场景去寻找最佳匹配行业,进行市场开拓。例如,杉岩智慧视频云存储的解决方案,可以在安防、轨道交通、能源、电力、金融等等行业领域使用。另外,我们还推出了一个更加通用化、平台式的私有云产品,适用于金融、政府、教育、医疗等多个行业。

目前,杉岩市场突破的重点在于有大量场景和需求的政府、金融、教育、医疗、交通、能源、制造等行业。市场开拓方面,杉岩在大部分行业齐头并进,对小部分行业有所侧重,例如金融行业将是杉岩数据始终关注的重点行业。

作为存储厂商,杉岩产品的行业属性不强,但在产品智能化层面,实际上我们有一些场景化和行业属性的定制,但这种定制不是为某一客户定制,而是为一个行业定制,并且可以批量复制和推广。

融中研究:

杉岩数据如何切入客户,并获得客户的信任?在客户关系维护和服务方面,杉岩数据采取哪些措施?

陈坚:

从0到1的突破是非常难的。杉岩数据以产品为客户带来的价值来切入市场,早期的客户包括中国移动、中国电信、广发证券、深圳市供电局等。对TOB市场,标杆的意义重大。杉岩切入市场后,依托案例与标杆客户在同行业去推广复制。

杉岩数据依靠高质量的产品和切实的服务获取客户的信任。目前为止,我们存储了2500+PB的数据,从没丢失过数据,这一点让用户非常放心。服务,是创业公司最具竞争力的优势之一,而大厂流程非常复杂,对TO B客户服务的理念和经验也比较缺乏。杉岩与客户的运维人员紧密沟通,对他们进行多维培训赋能,客户能够亲身感受到杉岩对他们的重视。

3

疫情期间,驰援武汉

推出免费服务平台

苦练研发内功蓄势待发

融中研究:

此次疫情对杉岩数据带来什么影响?杉岩数据采取哪些行动?

陈坚:

这次新冠疫情对杉岩数据是一把双刃剑,但总体来说是利好的局面。一方面,疫情对公司短期的获客、工作开展产生了一定的冲击和影响;另一方面,疫情也让新一代信息技术的价值被充分认识,例如远程医疗、远程诊断等会涉及到大量的数据存储和应用,轨迹、跟踪、健康码等其实也都是基于数据的存储和使用。很多行业对于新一代信息技术的接受程度更高了,特别是政府的智慧城市、医疗领域的远程医疗、教育领域的远程教育发展等,带来的数据存储机会更多了。

作为一家创业公司,疫情期间,我们也秉承一贯的家国情怀和责任,进最大的努力为抗疫提供支持。2月份,我们给武汉大学人民医院捐献了一套分布式存储产品,助力提升医院的医疗质量和效率。同时,为了帮助用户解决疫情期间存储问题,我们推出了供用户免费使用的「统一存储平台软件SandStone USP」。

此外,我们在产品研发、市场开拓上没有丝毫懈怠。在产品研发端,我们借机苦练内功、打磨产品,为疫情过后的市场反d做好准备;在市场开拓方面,我们的销售团队通过远程电话保持与客户、合作伙伴的紧密互动与沟通,努力介绍杉岩的产品方案和价值亮点,积极拓展新客户、挖掘老客户新需求等。

4

分布式存储市场将形成寡头垄断格局

杉岩将始终以差异化取胜

融中研究:

当前存储市场竞争格局怎么样?主要玩家类型有哪些?

陈坚:

从市场格局来说,存储行业技术门槛很高,需要大量的经验积累和打磨,大浪淘沙之后,最终玩家不会很多。在传统存储领域,全球TOP6的公司占据市场百分之八十几的份额。在分布式存储领域,经过五年多的发展,与杉岩数据同期创立的公司中,很多技术不成熟的公司已经慢慢被淘汰了。我相信经过震荡式的发展后,分布式存储的市场格局会趋于稳定,也会变成一个寡头垄断的格局,未来会有一家或几家来占领市场绝大部分的份额,杉岩肯定是其中之一。

从竞争来说,杉岩的优势还是产品。创业公司没有捷径可走,品牌、资金都比拼不过大厂,生存发展一定是靠差异化的竞争力。杉岩的差异化竞争优势主要体现在客户价值金字塔模型的“管”和“挖”,“存”大家都在做,如果这一层都做不好自然会被淘汰;“管”层面,大厂的产品很全,内部对于传统存储和分布式存储会有一些博弈和竞争,但对于垂直用户定制化以及工业化需求领域不一定愿意涉足,而杉岩独特的价值和优势正体现于此。数据智能层面,杉岩的价值和优势更加明显。杉岩的设备产品有一些特殊的功能,这是很多大厂不会去做的事情,他们提供的主要是面向全球市场的标准化产品,聚焦于存储产品的完善。杉岩则是针对垂直细分市场进行产品差异化。

在市场竞争格局中,同类创业公司竞争方面,从目前来说,2013到2015年成立的一批公司,现在的竞争格局越来越清晰了。当前,软件定义存储处于繁荣发展期,蛋糕还没有定型,在不断扩展、挖掘客户新场景、新需求的阶段,都在共同培育市场。所以,我们正在共创生态链,携手合作伙伴建设新型IT基础设施建设。

融中研究:

大型厂商加码存储,例如华为、华三等大厂也开始发力对象存储,对杉岩数据的发展会有冲击吗?杉岩数据如何平衡与基础设施合作伙伴华为的竞争与合作?

陈坚:

大厂确实在加大对存储领域的布局,但我们也看到一个趋势,大厂现在主要在公有云方面布局,而在私有云方面,可能更多的是以传统存储、分布存储的架构来拓展市场。与大厂的竞争要避免正面交锋,走差异化路线。比如在金融领域,杉岩在智能化数据处理方面独具特色,这是我们带给客户的独特价值。

一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。

先大概列一下互联网行业数据仓库、数据平台的用途:

整合公司所有业务数据,建立统一的数据中心;

提供各种报表,有给高层的,有给各个业务的;

为网站运营提供运营上的数据支持,就是通过数据,让运营及时了解网站和产品的运营效果;

为各个业务提供线上或线下的数据支持,成为公司统一的数据交换与提供平台;

分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;比如广告定向精准投放、用户个性化推荐等;

开发数据产品,直接或间接为公司盈利;

建设开放数据平台,开放公司数据;

。。。。。。

上面列出的内容看上去和传统行业数据仓库用途差不多,并且都要求数据仓库/数据平台有很好的稳定性、可靠性;但在互联网行业,除了数据量大之外,越来越多的业务要求时效性,甚至很多是要求实时的 ,另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永逸,它要求新的业务很快能融入数据仓库中来,老的下线的业务,能很方便的从现有的数据仓库中下线;

其实,互联网行业的数据仓库就是所谓的敏捷数据仓库,不但要求能快速的响应数据,也要求能快速的响应业务;

建设敏捷数据仓库,除了对架构技术上的要求之外,还有一个很重要的方面,就是数据建模,如果一上来就想着建立一套能兼容所有数据和业务的数据模型,那就又回到传统数据仓库的建设上了,很难满足对业务变化的快速响应。应对这种情况,一般是先将核心的持久化的业务进行深度建模(比如:基于网站日志建立的网站统计分析模型和用户浏览轨迹模型;基于公司核心用户数据建立的用户模型),其它的业务一般都采用维度+宽表的方式来建立数据模型。这块是后话。

整体架构下面的图是我们目前使用的数据平台架构图,其实大多公司应该都差不多:

逻辑上,一般都有数据采集层、数据存储与分析层、数据共享层、数据应用层。可能叫法有所不同,本质上的角色都大同小异。

我们从下往上看:

数据采集数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。

数据源的种类比较多:

网站日志:

作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务器上,

一般是在每台网站日志服务器上部署flume agent,实时的收集网站日志并存储到HDFS上;

业务数据库:

业务数据库的种类也是多种多样,有Mysql、Oracle、SqlServer等,这时候,我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具,Sqoop是一种,但是Sqoop太过繁重,而且不管数据量大小,都需要启动MapReduce来执行,而且需要Hadoop集群的每台机器都能访问业务数据库;应对此场景,淘宝开源的DataX,是一个很好的解决方案(可参考文章 《异构数据源海量数据交换工具-Taobao DataX 下载和使用》),有资源的话,可以基于DataX之上做二次开发,就能非常好的解决,我们目前使用的DataHub也是。

当然,Flume通过配置与开发,也可以实时的从数据库中同步数据到HDFS。

来自于Ftp/>

有可能一些合作伙伴提供的数据,需要通过Ftp/>

其他数据源:

比如一些手工录入的数据,只需要提供一个接口或小程序,即可完成;

数据存储与分析毋庸置疑,HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

离线数据分析与计算,也就是对实时性要求不高的部分,在我看来,Hive还是首当其冲的选择,丰富的数据类型、内置函数;压缩比非常高的ORC文件存储格式;非常方便的SQL支持,使得Hive在基于结构化数据上的统计分析远远比MapReduce要高效的多,一句SQL可以完成的需求,开发MR可能需要上百行代码;

当然,使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很乐意开发Java,或者对SQL不熟,那么也可以使用MapReduce来做分析与计算;Spark是这两年非常火的,经过实践,它的性能的确比MapReduce要好很多,而且和Hive、Yarn结合的越来越好,因此,必须支持使用Spark和SparkSQL来做分析和计算。因为已经有Hadoop Yarn,使用Spark其实是非常容易的,不用单独部署Spark集群,关于Spark On Yarn的相关文章,可参考:《Spark On Yarn系列文章》

实时计算部分,后面单独说。

数据共享这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和NOSQL数据库;

前面使用Hive、MR、Spark、SparkSQL分析和计算的结果,还是在HDFS上,但大多业务和应用不可能直接从HDFS上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据; 和数据采集层到HDFS刚好相反,这里需要一个从HDFS将数据同步至其他目标数据源的工具,同样,DataX也可以满足。

另外,一些实时计算的结果数据可能由实时计算模块直接写入数据共享。

数据应用

业务产品

业务产品所使用的数据,已经存在于数据共享层,他们直接从数据共享层访问即可;

报表

同业务产品,报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层;

即席查询

即席查询的用户有很多,有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大,他们都有即席查询数据的需求;

这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求,需要从数据存储层直接查询。

即席查询一般是通过SQL完成,最大的难度在于响应速度上,使用Hive有点慢,目前我的解决方案是SparkSQL,它的响应速度较Hive快很多,而且能很好的与Hive兼容。

当然,你也可以使用Impala,如果不在乎平台中再多一个框架的话。

OLAP

目前,很多的OLAP工具不能很好的支持从HDFS上直接获取数据,都是通过将需要的数据同步到关系型数据库中做OLAP,但如果数据量巨大的话,关系型数据库显然不行;

这时候,需要做相应的开发,从HDFS或者HBase中获取数据,完成OLAP的功能;

比如:根据用户在界面上选择的不定的维度和指标,通过开发接口,从HBase中获取数据来展示。

其它数据接口

这种接口有通用的,有定制的。比如:一个从Redis中获取用户属性的接口是通用的,所有的业务都可以调用这个接口来获取用户属性。

实时计算现在业务对数据仓库实时性的需求越来越多,比如:实时的了解网站的整体流量;实时的获取一个广告的曝光和点击;在海量数据下,依靠传统数据库和传统实现方法基本完成不了,需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架;Storm在这块是比较成熟了,但我选择Spark Streaming,原因很简单,不想多引入一个框架到平台中,另外,Spark Streaming比Storm延时性高那么一点点,那对于我们的需要可以忽略。

我们目前使用Spark Streaming实现了实时的网站流量统计、实时的广告效果统计两块功能。

做法也很简单,由Flume在前端日志服务器上收集网站日志和广告日志,实时的发送给Spark Streaming,由Spark Streaming完成统计,将数据存储至Redis,业务通过访问Redis实时获取。

任务调度与监控在数据仓库/数据平台中,有各种各样非常多的程序和任务,比如:数据采集任务、数据同步任务、数据分析任务等;

这些任务除了定时调度,还存在非常复杂的任务依赖关系,比如:数据分析任务必须等相应的数据采集任务完成后才能开始;数据同步任务需要等数据分析任务完成后才能开始; 这就需要一个非常完善的任务调度与监控系统,它作为数据仓库/数据平台的中枢,负责调度和监控所有任务的分配与运行。

前面有写过文章,《大数据平台中的任务调度与监控》,这里不再累赘。

总结在我看来架构并不是技术越多越新越好,而是在可以满足需求的情况下,越简单越稳定越好。目前在我们的数据平台中,开发更多的是关注业务,而不是技术,他们把业务和需求搞清楚了,基本上只需要做简单的SQL开发,然后配置到调度系统就可以了,如果任务异常,会收到告警。这样,可以使更多的资源专注于业务之上。

当今社会,已经步入信息时代,无论你身处何种职场,都离不开信息技术的支撑。大公司、国有单位一般都有自己的信息化专门机构和设施,小微公司、个体户们每天基本上都要与支付巨头、外卖巨头、快递巨头等等打交道,其中信息技术是少不了的。那么,你知道信息技术背后的基础设施是什么?

今天,我们就了解一下什么是IT基础设施。

IT基础设施的定义

IT基础设施定义千差万别,但一般认为是包括运营整个组织所必需的一系列物理设备和应用软件的集合,也包括由管理层预算所决定的组织范围内的人和技术能力的服务集合。我们经常提到的信息技术硬件、软件、服务方面的投资,其实就是IT基础设施。对于企业来说,这些设施,能够为客户服务、供应商联系和内部管理提供基础。

不要小看这些基础设施,它们往往占了大型企业信息技术支出的25%-30%。

IT基础设施的快速演化

IT基础设施已经走过了近60年的道路,大体可以分为5个阶段:

通用主机及小型计算机阶段(1959年至今),主机拥有非常强大的功能,能够支持数千个远程终端,采用高度集中的计算模式,计算机系统由专业的程序员和系统 *** 作员集中控制,通常就是在数据中心完成相关工作。之后又出现了小型计算机,就是我们所说的小机,价格比主机便宜,也便于分散部署,逐渐发展为网络的一个组成部分。

个人计算机阶段(1981年至今),这个阶段国人都比较熟悉,Windows *** 作系统、Intel微处理器的个人计算机,伴随个人计算机普及出现的office软件,在全世界运用都非常广泛。

客户机、服务器阶段(1983年至今),其实我们每天都在打交道,我们用个人计算机,访问某个网站,其实就是这个阶段的典型代表。

企业计算阶段(1992年至今),主要是一些大型企业和机关事业单位,从上世纪末开始,应用一些网络标准和软件工具,将分散的网络与应用进行整合,形成覆盖整个企业的基础设施网络体系,以便信息在组织内部以及不同组织间自由流动。

云计算及移动计算阶段(2000年至今),这是我们重点要说一说的阶段。所谓云计算,实际上就是通过网络访问计算资源共享池的一种计算模式。其中,计算资源包括计算机、存储、应用和服务,都可以按需使用的方式,从任何联网的设备和位置进行访问。为了支持此种类型计算,产生了安置上万台计算机的云数据中心,为那些希望在远程维持IT基础设施的企业提供计算能力、数据存储和高速互联网连接服务。

需要注意的是,这五个阶段是交叉的,从某种程度上每个阶段的典型代表之间也是残酷竞争的,还没有那个阶段的典型产品彻底退出历史舞台。

以上就是关于【管理下一代IT基础设施】IT基础设施全部的内容,包括:【管理下一代IT基础设施】IT基础设施、在项目数字化转型中使用较为普遍的软件定义存储一体机有吗,求推荐、什么是基础数据信息平台等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/8842739.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-22
下一篇 2023-04-22

发表评论

登录后才能评论

评论列表(0条)

保存