一、以往的数据分析在今天的各类型企业中,数据分析岗位已经基本得到普及和认可,这个岗位的核心任务往往是支撑运营和营销,将企业内部的数据,客户的数据进行分析和总结,形成以往工作情况的量化表现,以及客户的行为趋势或特征等。
如果从更宏观的角度来认识数据分析岗位的话,每一个数据分析人员都明白,其实数据分析岗位要达到的目标就是希望通过数据来发现潜在的规律,进而帮助预测未来,这一点同数据挖掘的目标一致。那么为什么在大多数公司都已经具备的数据分析岗位基础上,今天却还是在反复提到数据挖掘这个概念,我们就需要来看看数据分析都有哪些是没有做到的内容。
1数据分散
多数数据分析岗位在公司中的岗位设置是隶属在单一业务部门中作为一个支撑岗,只有少数的公司是将数据分析作为一个独立的部门。其差异性在于,前者的数据分析所能分析的内容仅限于自身部门所输出的指标,比如投诉部门只看投诉处理过程中的数据,销售部门只看销售过程中的数据,一旦涉及到需要将各类指标汇总分析的情况,这种组织架构就会带来极大的负面影响,由于不同部门具备自己部门指标导出的权限,且与其他部门的配合并不影响绩效任务,所以这种跨部门采集数据的过程往往效率奇低。而数据分析最关键的就在于汇集更多的数据和更多的维度来发现规律,所以以往的数据分析多是做最基础的对比分析以及帕累托分析,少有使用算法来对数据进行挖掘的动作,因为越少的指标以及越少的维度将会使得算法发挥的效果越差。
2指标维度少
在以往的企业中,数字化管理更多的体现在日常运维工作中,对于客户端的数据采集虽然从很早以前就已经开展,CRM系统的诞生已经有很久的时间了,但是一直以来客户端的数据维度却十分缺失,其原因在于上述这些途径所获得的数据多为客户与企业产生交互之后到交互结束之间的数据,但是这段时间只是这个客户日常生活中很少的一部分内容,客户在微博,微信上的行为特点,关注的领域或是品牌,自身的性格特点等,可以说一个客户真正的特点,习惯,仅通过与企业的交互是无从知晓的,因此难以挖掘出有效的结论。
3少使用算法
在上述制约条件下,可想而知数据分析人员对于算法的使用必然是较少的,因为数据分析依赖于大量的指标、维度以及数据量,没有这三个条件是难以发挥算法的价值的,而在排除掉算法后,数据分析人员更多的只能是针对有限的数据做最为简单的分析方法,得出浅显易懂的分析结论,为企业带来的价值则可以想象。
4数据分析系统较弱目前的数据分析多采用excel,部分数据分析人员能够使用到R或SPSS等软件,但当数据量达到TB或PB单位级别时,这些软件在运算时将会消耗大量时间,同时原始的数据库系统在导出数据时所花费的时间也是相当长的,因此对大数据量的分析工作,常规的系统支撑难以到达要求。
二、技术革命与数据挖掘
得益于互联网对于人们生活的影响逐渐增大,我们发现数据正在疯狂的增长。今天一个人一天的时间中有将近一半是在互联网中度过的,一方面这些使用互联网的交互都是能够被捕捉记录的,一方面由于碎片化时间的使用,客户与企业交互的机会也变的越来越频繁,进一步保障了客户数据的丰富。同时在大数据技术的支撑下,今天的系统能够允许对这些大规模的数据量进行高效的分析。
因此数据分析人员也能够开始使用一些较为抽象的算法来对数据做更为丰富的分析。所以数据分析正式进入到了数据分析20的时代,也就是数据挖掘的时代了。
三、数据处理流程
数据分析也即是数据处理的过程,这个过程是由三个关键环节所组成:数据采集,数据分析方法选取,数据分析主题选择。这三个关键环节呈现金字塔形,其中数据采集是最底层,而数据分析主题选择是最上层。
四、数据采集
数据采集即是如何将数据记录下来的环节。在这个环节中需要着重说明的是两个原则,即全量而非抽样,以及多维而非单维。今天的技术革命和数据分析20主要就是体现在这个两个层面上。
1全量而非抽样由于系统分析速度以及数据导出速度的制约,在非大数据系统支撑的公司中,做数据分析的人员也是很少能够做到完全全量的对数据进行收集和分析。在未来这将不再成为问题。
2多维而非单维另一方面则在于数据的维度上,这在前边同样提及。总之针对客户行为实现5W1H的全面细化,将交互过程的什么时间、什么地点、什么人、因为什么原因、做了什么事情全面记录下来,并将每一个板块进行细化,时间可以从起始时间、结束时间、中断时间、周期间隔时间等细分;地点可以从地市、小区、气候等地理特征、渠道等细分;人可以从多渠道注册账号、家庭成员、薪资、个人成长阶段等细分;原因可以从爱好、人生大事、需求层级等细分;事情可以从主题、步骤、质量、效率等细分。通过这些细分维度,增加分析的多样性,从而挖掘规律。
五、数据分析方法选取数据分析方法是通过什么方法去组合数据从而展现规律的环节。从根本目的上来说,数据分析的任务在于抽象数据形成有业务意义的结论。因为单纯的数据是毫无意义的,直接看数据是没有办法发现其中的规律的,只有通过使用分析方法将数据抽象处理后,人们才能看出隐藏在数据背后的规律。
数据分析方法选取是整个数据处理过程的核心,一般从分析的方法复杂度上来讲,我将其分为三个层级,即常规分析方法,统计学分析方法跟自建模型。我之所以这样区分有两个层面上的考虑,分别是抽象程度以及定制程度。
其中抽象程度是说,有些数据不需要加工,直接转成图形的方式呈现出来,就能够表现出业务人员所需要的业务意义,但有些业务需求,直接把数据转化成图形是难以看出来的,需要建立数据模型,将多个指标或一个指标的多个维度进行重组,最终产生出新的数据来,那么形成的这个抽象的结果就是业务人员所需要的业务结论了。基于这个原则,可以划分出常规分析方法和非常规分析方法。
那么另一个层面是定制程度,到今天数学的发展已经有很长的时间了,其中一些经典的分析方法已经沉淀,他们可以通用在多用分析目的中,适用于多种业务结论中,这些分析方法就属于通用分析方法,但有些业务需求确实少见,它所需要的分析方法就不可能完全基于通用方法,因此就会形成独立的分析方法,也就是专门的数学建模,这种情况下所形成的数学模型都是专门为这个业务主题定制的,因此无法适用于多个主题,这类分析方法就属于高度定制的,因此基于这一原则,将非常规分析方法细分为统计学分析方法和自建模型类。
1常规分析方法常规分析方法不对数据做抽象的处理,主要是直接呈现原始数据,多用于针对固定的指标、且周期性的分析主题。直接通过原始数据来呈现业务意义,主要是通过趋势分析和占比分析来呈现,其分析方法对应同环比及帕累托分析这两类。同环比分析,其核心目的在于呈现本期与往期之间的差异,如销售量增长趋势;而帕累托分析则是呈现单一维度中的各个要素占比的排名,比如各个地市中本期的销售量增长趋势的排名,以及前百分之八十的增长量都由哪几个地市贡献这样的结论。常规分析方法已经成为最为基础的分析方法,在此也不详细介绍了。
2统计学分析方法统计学分析方法能够基于以往数据的规律来推导未来的趋势,其中可以分为多种规律总结的方式。根据原理多分为以下几大类,包括有目标结论的有指导学习算法,和没有目标结论的无指导学习算法,以及回归分析。
其中有指导的学习算法简单说就是有历史数据里边已经给出一个目标结论,然后分析当各个变量达到什么情况时,就会产生目标结论。比如我们想判断各项指标需要达到什么水平时我们才认定这个人患有心脏病的话,就可以把大量的心脏病人的各项指标数据和没有心脏病的正常人的各项指标数据都输入到系统中,目标结论就是是否有心脏病,变量就是各项指标数据,系统根据这些数据算出一个函数,这个函数能够恰当的描述各个指标的数据与最终这个是否是心脏病人之间的关系,也就是当各个指标达到什么临界值时,这个人就有心脏病的判断,这样以后再来病人,我们就可以根据各项指标的临界值。这个案例中的函数就是算法本身了,这其中的算法逻辑有很多种,包括常见的贝叶斯分类、决策树、随机森林树以及支持向量机等,有兴趣的朋友可以在网上看看各种算法的逻辑是怎么样的。
另外无指导的学习算法因为没有一个给定的目标结论,因此是将指标之中所有有类似属性的数据分别合并在一起,形成聚类的结果。比如最经典的啤酒与尿布分析,业务人员希望了解啤酒跟什么搭配在一起卖会更容易让大家接受,因此需要把所有的购买数据都放进来,然后计算后,得出其他各个商品与啤酒的关联程度或者是距离远近,也就是同时购买了啤酒的人群中,都有购买哪些其他的商品,然后会输出多种结果,比如尿布或者牛肉或者酸奶或者花生米等等,这每个商品都可以成为一个聚类结果,由于没有目标结论,因此这些聚类结果都可以参考,之后就是货品摆放人员尝试各种聚类结果来看效果提升程度。在这个案例中各个商品与啤酒的关联程度或者是距离远近就是算法本身了,这其中的逻辑也有很多中,包括Apriori等关联规则、聚类算法等。
另外还有一大类是回归分析,简单说就是几个自变量加减乘除后就能得出因变量来,这样就可以推算未来因变量会是多少了。比如我们想知道活动覆盖率、产品价格、客户薪资水平、客户活跃度等指标与购买量是否有关系,以及如果有关系,那么能不能给出一个等式来,把这几个指标的数据输入进去后,就能够得到购买量,这个时候就需要回归分析了,通过把这些指标以及购买量输入系统,运算后即可分别得出,这些指标对购买量有没有作用,以及如果有作用,那么各个指标应该如何计算才能得出购买量来。回归分析包括线性及非线性回归分析等算法。
统计学分析方法还有很多,不过在今天多用上述几大类分析方法,另外在各个分析方法中,又有很多的不同算法,这部分也是需要分析人员去多多掌握的。
3自建模型自建模型是在分析方法中最为高阶也是最具有挖掘价值的,在今天多用于金融领域,甚至业界专门为这个人群起了一个名字叫做宽客,这群人就是靠数学模型来分析金融市场。由于统计学分析方法所使用的算法也是具有局限性的,虽然统计学分析方法能够通用在各种场景中,但是它存在不精准的问题,在有指导和没有指导的学习算法中,得出的结论多为含有多体现在结论不精准上,而在金融这种锱铢必较的领域中,这种算法显然不能达到需求的精准度,因此数学家在这个领域中专门自建模型,来输入可以获得数据,得出投资建议来。在统计学分析方法中,回归分析最接近于数学模型的,但公式的复杂程度有限,而数学模型是完全自由的,能够将指标进行任意的组合,确保最终结论的有效性。
六、数据分析主题选取
在数据分析方法的基础上,进一步是将分析方法应用在业务需求中,基于业务主题的分析可以涉及太多的领域,从客户的参与活动的转化率,到客户的留存时长分析,再到内部的各环节衔接的及时率和准确度等等,每一种都有独特的指标和维度的要求,以及分析方法的要求,以我个人的经验来看,主要分析主题都是围绕着营销、运营、客户这三大角度来开展的。
1营销/运营分析营销运营分析多从过程及最终的成效上来进行分析,包括营销活动从发布到客户产生购买的过程的分析,运营从客户开始使用到停止使用为止的过程中的分析,前者更倾向于分析客户行为的变动趋势,以及不同类型的客户之间的行为差异,后者更倾向于分析在过程中服务的及时率和有效率,以及不同类型的客户之间对于服务需求的差异。
在针对这部分分析主题时,多采用常规分析方法,通过同环比以及帕累托来呈现简单的变动规律以及主要类型的客户,但通过统计学分析方法,营销分析可以根据有指导的学习算法,得出营销成功与营销失败之间的客户特征的差异,而运营分析则可以根据无指导的学习算法,得出哪些特征的客户对哪些服务是有突出的需求的,另外营销和运营分析都可以通过回归分析来判断,各项绩效指标中,哪些指标是对购买以及满意度有直接影响的。通过这些深入的挖掘,可以帮助指导营销及运营人员更好的完成任务。
2客户分析客户分析除了与营销和运营数据关联分析时候使用,另外单独对于客户特征的分析也是有很大价值的。这一部分分析更多需要通过统计学分析方法中的有指导和无指导的学习算法,一方面针对高价值客户,通过有指导的学习算法,能够看到哪些特征能够影响到客户的价值高低,从而为企业锁定目标客户提供指导;另一方面针对全体客户,通过无指导的学习算法,能够看到客户可以大概分为哪几种群落,针对每个群落的客户展开焦点讨论和情景观察,从而挖掘不同群落客户之间的需求差异,进而为各个群落的客户提供精准营销服务。 通过以上这些的 *** 作,一个企业的数据分析或者说数据挖掘工作的完整流程就呈现了出来。可以看到,无论是数据采集,还是分析方法,亦或是分析主题,在大数据和互联网的支撑基础上,在未来都将有大幅度的增加,数据分析人员将成为下一个阶段的关键企业支撑人员,也即是在未来,在各个领域中,都将产生大量的宽客,或者增长黑客这样的数据分析人员,来带动企业的发展。
随着数字化经济浪潮的持续推进,以金融 科技 为引导的创新已全面崛起,金融业正结合新技术重塑IT架构、革新应用,借数字化转型赢得新机遇。尤其是证券行业,新技术的发展给证券行业带来了商业模式和业务形态的变化,促使证券公司一方面采用创新平台,不断敏捷开发各类应用,另一方面还要兼顾改造、升级现有的生产系统,使其能够更具备运行稳定可靠、高效扩展的IT能力,进而支撑业务成长。
东方证券是一家经中国证券监督管理委员会批准的综合类证券公司,提供证券、期货、资产管理、理财、投行、投资咨询及证券研究等综合金融服务的上市证券金融控股集团。同时秉承“团结 进取 务实 高效”的企业精神,致力于“成为具有行业一流核心竞争力、为客户提供综合金融服务的现代投资银行”。
东方证券信息化架构采用软件定义及d性模块化设计来重塑业务体系,同时三线并进:私有云、敏捷开发(包含容器)、大数据支撑着业务发展。利用多数据中心多集群部署实现异地容灾及数据备份,并结合系统监控和智能运维实现了运维智能化及数据可视化。
业务驱动基础架构创新升级
从2014年开始,东方证券开始使用超融合架构,从国外的知名厂商到国内厂商,东方证券在超融合节点数量上也是行业前列。随着超融合使用的深入,东方证券不仅需要超融合实现资源基础功能,还要从应用数据以及存储机制上,为业务提供更高的性能以及多样化数据冗余机制。
华云数据安超OS在东方证券进行了多轮稳定性及可靠性测试,提供了虚拟机基础资源动态分配,在数据存储上支持全闪与混闪磁盘配置,实现了自定义存储数据块大小(4K 32K)、数据副本数自定义以及机架感知等多种高级功能,在应用性能上和数据保护上都较之前都有一定提升,整个方案架构得到了客户的一致认可。
搭建超融合架构 支持业务发展
华云数据利用安超OS为其构建的超融合架构,基于2U融合服务器,提供计算存储供给和管理能力,并分集群进行部署,利用现有管理平台进行集中管控。安超OS部署在虚拟化管理程序中,能够实现各个服务器中物理存储资源集中,形成统一存储资源池进行管理。同时,安超OS提供存储池来实现以虚拟机为中心的 IT基础设施管理,从而填补了存储基础设施和虚拟化平台之间的差距,带来了架构高效灵活性和稳定性。
架构优势
数据保护的七种容错机制
华云数据安超OS在架构上采用全容错架构设计,提供端到端的容错和容灾方案。通过数据检验、网络容错、缓存容错、数据容错、节点容错、机架容错及集群容错,7个环节去解决数据容错和数据丢失的风险,实现了对数据的多重保护。
针对应用类型对数据块大小设置
块的大小或内存页的大小决定超融合数据存储上虚拟机的最小空间分配单位。超融合数据存储上通常默认页面大小为 4K。安超OS在配置过程中提供一个选项,以配置超融合集群数据存储的页面大小和部署到数据存储的虚拟机磁盘(VMDK)的默认页面大小。
数据压缩算法及副本
平台提供3种虚拟机的压缩算法以及2种数据副本。通常使用lz4来实现数据压缩,另需要更高的压缩率可选择gzip_high 或者 gzip_opt,来提升存储的利用率;磁盘的2副本与3副本的混合设置,为应用系统提供更加多样化的存储机制;
虚拟化配置策略
安超OS 的条带化策略,与虚拟机相关的虚拟磁盘的配置会带来性能提升。每个虚拟机配置多个虚拟磁盘将提高超融合集群中每个物理磁盘的利用率,从而提高总集群性能。此外,安超OS超融合在Vsphere环境中进行了优化,以实现与半虚拟SCSI控制器连接的数据虚拟磁盘。
提升IT能力 带来多重收益
凭借强大的产品自研能力以及在金融领域积累的实践经验,在此次项目中,华云数据利用安超OS全面满足东方证券敏捷业务对基础架构的需求,提供全方位一站式、全生命周期服务,7x24+360 的技术支持保障系统的连续性。
华云数据帮助东方证券提升了IT能力,实现业务变革,带来了极大的收益和价值,同时借助东方证券现有的云管理平台,实现了“一云多栈,绿色低碳”,响应金融 科技 发展规划(2022-2025)中“数字驱动、智慧为民、绿色低碳、公平普惠”为发展原则。
作为众多金融 科技 行业中的典型代表,东方证券一直以来都走在数字化转型的前沿。像此次华云数据助力东方证券搭建云平台、升级IT基础架构也是一次有力印证。对于东方证券来说,华云数据不仅为其业务数字化转型提供核心力量,还推动了证券行业数字化转型进程,引领行业金融 科技 发展。
金融数字化已经从技术革命开始转变为引领业务高质量发展与体系化服务的战略引擎。华云数据作为金融数字化转型背后坚实的力量,未来将不断 探索 、不断创新,为金融领域及证券行业提供安全合规、稳定可靠、实现快捷、极速易用、易于扩展的产品及解决方案,持续助力东方证券等金融用户引领数字化转型浪潮,保持企业竞争力及成长活力,拓展出更多的经济价值和 社会 效益。
#华云数据#
传统的IT架构使用了这么多年,所有的监控设备以及网络架构都是基于此打造,那么在传统架构虚拟化、云化后的今天,如何针对虚拟化、云计算的环境如IAAS、PAAS进行运维?
传统监控系统主要是基于传统的环境构建。主要是针对基础的硬件设备、业务系统的监控,对于虚拟化环境的覆盖是不足甚至可以说是零覆盖的,特别是在虚拟化技术引入之后,每台宿主机里面的众多虚拟机怎么去运维?众多的容器 、微服务 、APP怎么运维
如何监控是云化后运维监控面临的挑战。
博睿数据依托完整的IT运维监控能力,公司利用大数据和机器学习技术构建的先进智能运维监控能力,可基于自身的通用性,满足最为广泛的用例,有效控制企业成本,确保数字化业务平稳运行,保证成功交易,保障良好的数字化体验,更有针对性地向客户提供服务。
截至2023年3月1日,博睿数据已经拥有17项已授权发明专利、111项软件著作权、27项核心技术,在应用性能管理领域实现了多项技术突破,具备较强的技术先进性。如今,公司已经与CNNIC、CFCA、IATA、中国互联网协会、数据中心联盟、中国信息通信研究院、中国金融产业科技发展联盟、华为等机构和企业达成了多元合作,并成为中国信息通信研究院AIOps标准工作组、中国电子工业标准化技术协会信息技术应用创新工委会等行业权威组织的会员单位。
博睿数据秉承“让IT运营更智能”的品牌理念,成立15年以来,公司已在北京、上海、广州、深圳、武汉、成都等地设立了营销中心,在北京、武汉、厦门等地设立有研发中心。持续对IT运维监控技术的专注,使得公司的解决方案覆盖了IT运维监控管理所有分支领域(DEM、APM、ITIM、NPM和智能运维管理),并被广泛应用于互联网、金融、制造业、电信相关服务、电商等多个领域,客户包括阿里巴巴、腾讯、百度、华为、国泰君安证券、中信银行、中国南方航空等行业巨头,覆盖IT运维人员、开发人员、技术支持人员、前端业务人员等多种职业角色。
说一说对互联网系统和传统企业IT系统的一些看法和观点。
现在被炒的很火热的互联网,云计算架构,其相对于传统的大型企业系统架构,最大的区别就是以分布式的架构去替代原先的集中式系统架构。
打个比方,原先的大型企业系统架构,就好像一架大型的民航客机。作为出行来讲,飞机无疑是最舒适最快的交通工具,同时安全性也很好。但飞机却也不是人人都能坐的。首先:做飞机要经过换领登机牌,安检等若干道手续,乘客必须提前一个多小时到机场办理各种手续,而坐火车大巴则随到随买随上车,方便的多;其次:坐飞机很多东西不能随身携带甚至不能托运,火车大巴则相对宽松;还有:机票很贵坐飞机花销很大而且飞机运载能力也不如火车。当你有数万数千人要一次性到达某地时,一两架飞机的运载能力根本不够,要调动成批飞机的话整体成本又太高。最后:虽然飞机很少出事故,飞机一旦出现事故的话危险级别往往都会很高。
但是,以前除了飞机之外,就只有火车,大巴这种交通方式选择了。相比之下,这些方式虽然收费低廉,乘车,携带物品都比较方便,但是速度实在太慢而且受外界因素诸如雨雪等等的影响太大,乘坐也不是很舒适。只能满足那些相对时间宽裕,或者囊中羞涩人群的出行需求。
于是,为了满足更多人,更便利更高速的交通运输需求,新的交通运输模式—动车/高铁就出现了。它和火车最大的区别是:火车只有一节车头有动力,后面能拖几节车厢跑多快基本就是看一个车头有多强劲。但个体的力量终究有限,一个车头再强劲也有个极限,发展空间也就那点了,实在难以有太大作为。动车则不同,它每节列车都独立有自己的动力系统,连在一起各节车厢动力系统就是一个叠加递增的关系。所以理论上越多节车厢接在一起就可以拉更多人跑的更快,是一个无限扩展的系统!而且因为动车可以搭载的乘客很多,所以均摊到每个乘客头上,坐动车的速度可以某种程度上接近坐飞机,但成本要低很多。
现在互联网,云计算的系统架构其实和动车的理念相类似,就是分布式系统的架构 – 将任务分解交由每个小计算单元进行分布式的并行处理,充分利用每个单元的计算和存储能力,理论上性能可以无限线性扩展,任何一个节点的故障不影响整个系统的运行,整个系统没有单点故障。
也就是说:我们可以简单把大型企业核心架构,或者说就是大型机,RISC系统比作飞机;而把互联网,云计算的系统架构比作动车。现在,就可以做些很有意思的讨论了。
还是来说说稳定性和可靠性:就说2012年吧,飞机也好,动车也好,新闻里面都有报道过出现严重事故,可见没有一种系统是完全稳定可靠不会出现任何宕机风险的,但是其概率都是非常非常小的。从整体来讲,都是很稳定很可靠很安全的选择。只不过各自对于如何防灾冗余的策略还是有些不一样。先说飞机,因为飞在空中,万一出了事情没有后备可用,所以能采取的方式只有想尽一切办法提高飞机自身个部件的冗余度,设计时尽可能多的考虑各种小概率事件。哪怕发生某故障的概率只有千万分之一甚至亿万分之一,只要有可能,也要把应对措施设计进去。这也是飞机造价为什么会那么高,对携带物的要求会那么多的原因。而动车则相对简单:反正多拖几节车厢又不影响我速度,那我就尽量多拖些备用车厢跑着呗。万一某节车厢出事了,就把里面乘客挪到备用车厢里,车照样跑得欢。然后等到了站再去更换检查有问题车厢也不迟。
回到IT世界也是一样。分布式系统基本都是基于x86的PC服务器。单就一台服务器而言,虽然性能可靠性在不断加强,但肯定还是不如RISC系统的。但是没关系,咱可以用数量来弥补单机冗余度的不足啊。设计没你好冗余度没你考虑的多我就多拉几台呗。坏了几台没事,应用任务再分配到别的空闲机器上就好了。坏了的机器也不用马上修,反正没坏的机器加起来也够用。等到故障机器到了一定数量我再一次性批量检修更换部件效率更高。对于用户来讲,即使我坏了100来台服务器只要剩下的服务器还能正常工作,应用就不会受任何影响。谷歌,Facebook那些超大型数据中心现在的工作思路大致如此。这么做看起来是个很简单有效,很聪明的方法,但其实也有不少问题存在。
首先我觉得这个架构好处是实现原理简单,而且扩展性d性比起RISC架构来好处不言而喻。但其实这个架构里面也存在着无谓的资源浪费可能性。例如拿存储而言,目前Hadoop类的多副本分布式存储很火。一份数据存三份,发现有数据损坏立即找空闲空间恢复。听上去很简单很容易实现很高效,但如果你真的坐下来仔细算算账,你就会发现:
1 当你数据量不大(小于PB)的情况下这种一份数据存三份方式的成本其实比现有任何商业存储方案的成本都要高。
2 这种方式下每台服务器的CPU利用率都很低,而现在市面上的大存储容量服务器,CPU配置都很高。所以这种方式,基本上是对于CPU资源的一种浪费。所以,或许对于数据量适中的企业来说,用EC CODE这种以计算能力换存储的分布式存储解决方案会比多副本方案更经济实惠。
3 这种方式很容易让IT运维人员产生一种习惯性思维 – 即要提高系统在线时间就多买些服务器就好了。因为服务器多了分布性好了自然冗余度就高了。于是不必要的服务器采购就这么产生了,每个数据中心也就又多了很大一笔不是很必要的电费开销。
其次,我觉得分布式架构的某些故障很可能会产生连锁效应,导致更严重全局瘫痪。打个比方,大家都知道赤壁之战的故事。里面有个很著名的桥段就是庞统献连环计,铁锁连舟。起始时使曹 *** 万余战船连成一体稳如平地进可攻退可守前后都可照应看似完美,但唯有一个命门就是怕火攻。而诸葛亮周瑜正是利用这个命门,解东风火烧赤壁把曹 *** 百万大军杀的丢盔卸甲。互联网的分布式架构其实我觉得也有类似“命门”。大型机或者RISC系统之所以那么贵,其实很多时候用户在为千万分之一甚至亿万分之一的“万一”买单。而互联网,现在的公有云架构,在设计之初,基本的考虑思路是大用户,大并发,然后尽量减少TCO。所以很多时候,设计架构时会先把那些“千万分之一”排除在外,暂时不予考虑。而系统上线之后,稳定运行一段时间用户量暴涨,精力往往又会去专注扩容方面了。搞不好就会把一些“命门”漏掉,于是乎万一正好遇上“东风”吹到了命门上,后果估计会比曹阿瞒更惨。因为IT世界里还没有那么仁义的关云长会在华容道上放曹 *** 一马。
其实从最近Facebook,Amazon、谷歌的几次宕机事件来看,已经有些那个苗头了。好在那些互联网领头羊们应该是已经意识到这些问题,已经在积极修补“命门”了。
最后,我想说互联网,云计算的业务类型其实和传统企业的业务类型不一样,所以大型机,RISC系统处理的任务,运行的计算并不一定都适合移植到分布式系统架构上来。还是以交通运输举例:我要去美国,目前还是只有飞机可以满足我的需求。当然你可以说我坐动车也可以,无非是多转几趟跨国列车。但那毕竟很勉强,速度不快,费时费力还不省钱,毫无意义。人家直接飞过去就行了,你却要绕着太平洋海岸线跑一个大圈来兜,何必呢
那么以上这些问题有没有办法解决呢其实我觉得解决以上问题的关键就是两个字:运维。分布式系统,要保障其安全可靠的运行,合理有效的扩容,关键不在系统的软硬件,而是在系统搭建之后的运维和持续的对系统的改进修正!现在网络上很多人都在热衷于各种开源架构如openstack,Hadoop的开发,应用场景探讨。但个人以为这些开源系统的特点是搭建简单,维护艰难!要想把这些架构和技术真正投入企业成熟应用,在运维管理上投入的成本可能要比RISC大得多。因为这些系统架构更分散,出现的不可预估性更多,同时也更需要有人来理清何时用分布式架构,何种场景还是需要传统架构。那么可能有人要问,既然如此,我们还有必要走分布式系统这条路吗当然有!原因也很简单:分布式架构给了我们处理海量请求的能力和应对突发事件的d性;同时分布式架构也使系统具备了更好的扩展能力和更多业务创新的可能性。
说了这么多,基本要讲的也就讲得差不多了。怕前面说的有些散稍微总结下我想说的观点:无论传统RISC架构还是现在流行的分布式架构,虽然实现方式各有不同,但都是具有很高的稳定性可靠性的系统。但没有一个系统是绝对稳定不会宕机的,要保障系统稳定可靠运行,运维管理很重要。分布式系统相比传统RISC架构有扩展性和灵活性方面的巨大优势,但也存在资源浪费和故障隐患危险。在这一方面,分布式系统架构还需要多向传统架构的运维管理学习借鉴,提升自身的忧患意识和故障预警处理能力。
数据时代,移动互联、社交网络、数据分析、云服务等应用的迅速普及,对数据中心提出革命性的需求,存储基础架构已经成为IT核心之一。政府、军队军工、科研院所、航空航天、大型商业连锁、医疗、金融、新媒体、广电等各个领域新兴应用层出不穷。数据的价值日益凸显,数据已经成为不可或缺的资产。作为数据载体和驱动力量,存储系统成为大数据基础架构中最为关键的核心。
传统的数据中心无论是在性能、效率,还是在投资收益、安全,已经远远不能满足新兴应用的需求,数据中心业务急需新型大数据处理中心来支撑。除了传统的高可靠、高冗余、绿色节能之外,新型的大数据中心还需具备虚拟化、模块化、d性扩展、自动化等一系列特征,才能满足具备大数据特征的应用需求。这些史无前例的需求,让存储系统的架构和功能都发生了前所未有的变化。
基于大数据应用需求,“应用定义存储”概念被提出。存储系统作为数据中心最核心的数据基础,不再仅是传统分散的、单一的底层设备。除了要具备高性能、高安全、高可靠等特征之外,还要有虚拟化、并行分布、自动分层、d性扩展、异构资源整合、全局缓存加速等多方面的特点,才能满足具备大数据特征的业务应用需求。
尤其在云安防概念被热炒的时代,随着高清技术的普及,720P、1080P随处可见,智能和高清的双向需求、动辄500W、800W甚至上千万更高分辨率的摄像机面市,大数据对存储设备的容量、读写性能、可靠性、扩展性等都提出了更高的要求,需要充分考虑功能集成度、数据安全性、数据稳定性,系统可扩展性、性能及成本各方面因素。
目前市场上的存储架构如下:
(1)基于嵌入式架构的存储系统
节点NVR架构主要面向小型高清监控系统,高清前端数量一般在几十路以内。系统建设中没有大型的存储监控中心机房,存储容量相对较小,用户体验度、系统功能集成度要求较高。在市场应用层面,超市、店铺、小型企业、政法行业中基本管理单元等应用较为广泛。
(2)基于X86架构的存储系统
平台SAN架构主要面向中大型高清监控系统,前端路数成百上千甚至上万。一般多采用IPSAN或FCSAN搭建高清视频存储系统。作为监控平台的重要组成部分,前端监控数据通过录像存储管理模块存储到SAN中。
此种架构接入高清前端路数相对节点NVR有了较高提升,具备快捷便利的可扩展性,技术成熟。对于IPSAN而言,虽然在ISCSI环节数据并发读写传输速率有所消耗,但其凭借扩展性良好、硬件平台通用、海量数据可充分共享等优点,仍然得到很多客户的青睐。FCSAN在行业用户、封闭存储系统中应用较多,比如县级或地级市高清监控项目,大数据量的并发读写对千兆网络交换提出了较大的挑战,但应用FCSAN构建相对独立的存储子系统,可以有效解决上述问题。
面对视频监控系统大文件、随机读写的特点,平台SAN架构系统不同存储单元之间的数据共享冗余方面还有待提高;从高性能服务器转发视频数据到存储空间的策略,从系统架构而言也增加了隐患故障点、ISCSI带宽瓶颈导致无法充分利用硬件数据并发性能、接入前端数据较少。上述问题催生了平台NVR架构解决方案。
该方案在系统架构上省去了存储服务器,消除了上文提到的性能瓶颈和单点故障隐患。大幅度提高存储系统的写入和检索速度;同时也彻底消除了传统文件系统由于供电和网络的不稳定带来的文件系统损坏等问题。
平台NVR中存储的数据可同时供多个客户端随时查询,点播,当用户需要查看多个已保存的视频监控数据时,可通过授权的视频监控客户端直接查询并点播相应位置的视频监控数据进行历史图像的查看。由于数据管理服务器具有监控系统所有监控点的录像文件的索引,因此通过平台CMS授权,视频监控客户端可以查询并点播整个监控系统上所有监控点的数据,这个过程对用户而言也是透明的。
(3)基于云技术的存储方案
当前,安防行业可谓“云”山“物”罩。随着视频监控的高清化和网络化,存储和管理的视频数据量已有海量之势,云存储技术是突破IP高清监控存储瓶颈的重要手段。云存储作为一种服务,在未来安防监控行业有着可观的应用前景。
与传统存储设备不同,云存储不仅是一个硬件,而是一个由网络设备、存储设备、服务器、软件、接入网络、用户访问接口以及客户端程序等多个部分构成的复杂系统。该系统以存储设备为核心,通过应用层软件对外提供数据存储和业务服务。
一般分为存储层、基础管理层、应用接口层以及访问层。存储层是云存储系统的基础,由存储设备(满足FC协议、iSCSI协议、NAS协议等)构成。基础管理层是云存储系统的核心,其担负着存储设备间协同工作,数据加密,分发以及容灾备份等工作。应用接口层是系统中根据用户需求来开发的部分,根据不同的业务类型,可以开发出不同的应用服务接口。访问层指授权用户通过应用接口来登录、享受云服务。其主要优势在于:硬件冗余、节能环保、系统升级不会影响存储服务、海量并行扩容、强大的负载均衡功能、统一管理、统一向外提供服务,管理效率高,云存储系统从系统架构、文件结构、高速缓存等方面入手,针对监控应用进行了优化设计。数据传输可采用流方式,底层采用突破传统文件系统限制的流媒体数据结构,大幅提高了系统性能。
高清监控存储是一种大码流多并发写为主的存储应用,对性能、并发性和稳定性等方面有很高的要求。该存储解决方案采用独特的大缓存顺序化算法,把多路随机并发访问变为顺序访问,解决了硬盘磁头因频繁寻道而导致的性能迅速下降和硬盘寿命缩短的问题。
针对系统中会产生PB级海量监控数据,存储设备的数量达数十台上百台,因此管理方式的科学高效显得十分重要。云存储可提供基于集群管理技术的多设备集中管理工具,具有设备集中监控、集群管理、系统软硬件运行状态的监控、主动报警,图像化系统检测等功能。在海量视频存储检索应用中,检索性能尤为重要。传统文件系统中,文件检索采用的是“目录-》子目录-》文件-》定位”的检索步骤,在海量数据的高清视频监控,目录和文件数量十分可观,这种检索模式的效率就会大打折扣。采用序号文件定位可以有效解决该问题。
云存储可以提供非常高的的系统冗余和安全性。当在线存储系统出现故障后,热备机可以立即接替服务,当故障恢复时,服务和数据回迁;若故障机数据需要调用,可以将故障机的磁盘插入到冷备机中,实现所有数据的立即可用。
对于高清监控系统,随着监控前端的增加和存储时间的延长,扩展能力十分重要。市场中已有友商可提供单纯针对容量的扩展柜扩展模式和性能容量同步线性扩展的堆叠扩展模式。
云存储系统除上述优点之外,在平台对接整合、业务流程梳理、视频数据智能分析深度挖掘及成本方面都将面临挑战。承建大型系统、构建云存储的商业模式也亟待创新。受限于宽带网络、web20技术、应用存储技术、文件系统、P2P、数据压缩、CDN技术、虚拟化技术等的发展,未来云存储还有很长的路要走。
以上就是关于数据分析架构及方法全部的内容,包括:数据分析架构及方法、背后的力量 | 华云数据为东方证券IT架构转型升级保驾护航、企业建立支持数字化转型的组织架构,IT部门应该如何应对等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)