databrik难还是谷歌难?

databrik难还是谷歌难?,第1张

databrik难还是谷歌难?前边说到了城市大脑,那么它和城市大数据中心是什么关系?南方某计划单列市新上任的大数据局长问。
他的窗台上养了一缸鱼,我就打了个比方。
鱼是大数据应用,水就是大数据,鱼缸就是装载大数据、作为应用容器的平台。鱼可以养很多不同品种,但是受限于水和鱼缸。水不够大、不够深,就没法养大鱼;水够大够深,就需要一个足够大的鱼缸。只是大还不行,养鱼还要有水体循环、水质安全、饲料投喂等一系列问题。如此,还需要经验丰富的养鱼师傅。呃…那就不是鱼缸了,是水族箱,再大就是水族馆了。
城市大数据中心与水族馆的类比
城市大数据中心其实就是装载城市大数据、作为大数据应用容器的技术平台。城市大数据中心架构设计,有点儿类似于摩天大厦的总体蓝图。
城市大数据中心的技术难度,比谷歌数据中心还要难。EB级数据、上亿用户访问、超十万台服务器,听起来挺吓人,但仅仅是大而已。对于单纯网页数据的搜索场景,数据存储完全是集中的和同构的,不用太多领域的技术路线就可以解决。城市大数据中心面对的是高度离散的数据源、多种多样的异构数据,内外部的用户群体,千变万化的多元化场景,技术难度不在于大而是复杂性,这就要融合很多领域的技术路线,远不是一个厂商能够胜任的。
装备制造业有成套设备的概念,软件业有系统集成的概念。道理很简单,就是一家供应商不能包打天下,不可能、也没有必要以一己之力提供一个大客户所需的全部产品和服务,于是就有了上下游分工和交钥匙工程。
对于城市大数据中心而言,没有一家供应商有能力提供全融合的一体化技术平台,只能从多家供应商的技术平台中进行选型和集成,其实就是跨多个平台的技术整合。
但是城市大数据中心建设不是简单的拼图游戏,也不是用乐高积木搭个玩具房子。即便总体架构设计是完美的,但是跨平台技术整合依然是不完美的,有些期望注定落空。人类的软件只能完成设计边界之内的已知功能,不能指望它做到在设计之初没想到的事情。即便是可以局部扩展,也是在不能推翻架构的前提之下。这就像一个砖混楼房不能在顶上直接加盖改成高层建筑一样,除非推倒重来。
对于城市大数据中心的架构师,在每个技术平台只管局部、不管整体的囧途之上,即便在总体架构设计上有前瞻性和预见力也无济于事。总是有些事情没法做到,必须有所取舍,如果追求完美恐怕有精神分裂的危险。这是我在负责X省大数据中心初步设计时发出的慨叹。
都说拼凑不如推倒重来,可是谁有这个本事玩乾坤大挪移?
这就是理想和现实的落差,让我体会到模型驱动架构(MDA)的深意所在。假如有一天城市大数据中心可以达到谷歌数据中心的水平,那个架构师一定是个天才。
城市大数据中心刚刚起步,在“路”上踌躇前行,或许更多还是在探路。这其中,有近十年来共享交换难题的沉重拖累,也有对大数据应用点石成金的美好憧憬。
城市大数据中心脱胎于政府信息中心,“纵强横弱、部门强中心弱”,家底子薄,创业艰难。但是,许多地方政府对城市大数据中心寄予厚望,不但是大数据发展的发动机,还是大数据产业的孵化器。这么多的期许,事情就更复杂了。
大数据产业促进姑且不论,从承载政务数据到承载城市数据的进化,就必须从共享交换时代跨越到大数据时代。这个跨越,转换到架构设计上,也并非易事。
架构(Architecture)本来就是建筑学术语,不妨用建筑设计打个比方。
如果说共享交换是砖混结构的小楼,那么大数据就是钢结构的摩天大厦。有点像老城区改造遇到历史建筑,小楼不能拆,摩天大厦必须建,而且两者还要融为一体。

大数据分析技术生态圈一览
大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。
这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。
Platfora
这是一款大数据发现和分析平台。
Qlikview
这是一款引导分析平台。
Sisense
这是一款商业智能软件,专门处理复杂数据的商业智能解决方案。
Sqream
这是一款快速、可扩展的大数据分析SQL数据库。
Splunk
这是一款运维智能平台。
Sumologic
这是一项安全的、专门定制的、基于云的机器数据分析服务。
Actian
这是一款大数据分析平台。
亚马逊Redshift
这是一项PB级云端数据仓库服务。
CitusData
可扩展PostgreSQL。
Exasol
这是一种用于分析数据的大规模并行处理(MPP)内存数据库。
惠普Vertica
这是一款SQL on Hadoop大数据分析平台。
Mammothdb
这是一款与SQL兼容的MPP分析数据库。
微软SQL Server
这是一款关系数据库管理系统。
甲骨文Exadata
这是一款计算和存储综合系统,针对甲骨文数据库软件进行了优化。
SAP HANA
这是一款内存计算平台。
Snowflake
这是一款云数据仓库。
Teradata
这是企业级大数据分析和服务。
数据探查
Apache Drill
这是一款无数据库模式的SQL查询引擎,面向Hadoop、NoSQL和云存储。
Cloudera Impala
这是一款开源大规模并行处理SQL查询引擎。
谷歌BigQuery
这是一项全面托管的NoOps数据分析服务。
Presto
这是一款面向大数据的分布式SQL查询引擎。
Spark
这是一款用于处理大数据的快速通用引擎。
平台/基础设施
亚马逊网络服务(AWS)
提供云计算服务
思科云
提供基础设施即服务
Heroku
为云端应用程序提供平台即服务
Infochimps
提供云服务的大数据解决方案
微软Azure
这是一款企业级云计算平台。
Rackspace
托管专业服务和云计算服务
Softlayer(IBM)
提供云基础设施即服务
数据基础设施
Cask
这是一款面向Hadoop解决方案的开源应用程序平台。
Cloudera
提供基于Hadoop的软件、支持和服务。
Hortonworks
管理HDP――这是一款开源企业Apache Hadoop数据平台。
MAPR
这是面向大数据部署环境的Apache Hadoop技术。
垂直领域应用/数据挖掘
Alpine Data Labs
这是一种高级分析平台,可处理Apache Hadoop和大数据。
R
这是一种免费软件环境,可处理统计计算和图形。
Rapidminer
这是一款开源预测分析平台
SAS
这是一款软件套件,可以挖掘、改动、管理和检索来自众多数据源的数据。
提取、转换和加载(ETL)
IBM Datastage
使用一种高性能并行框架,整合多个系统上的数据。
Informatica
这是一款企业数据整合和管理软件。
Kettle-Pentaho Data Integration
提供了强大的提取、转换和加载(ETL)功能。
微软SSIS
这是一款用于构建企业级数据整合和数据转换解决方案的平台。
甲骨文Data Integrator
这是一款全面的数据整合平台。
SAP
NetWeaver为整合来自各个数据源的数据提供了灵活方式。
Talend
提供了开源整合软件产品
Cassandra
这是键值数据库和列式数据库的混合解决方案。
CouchBase
这是一款开源分布式NoSQL文档型数据库。
Databricks
这是使用Spark的基于云的大数据处理解决方案。
Datastax
为企业版的Cassandra数据库提供商业支持。
IBM DB2
这是一款可扩展的企业数据库服务器软件。
MemSQL
这是一款分布式内存数据库。
MongoDB
这是一款跨平台的文档型数据库。
MySQL
这是一款流行的开源数据库。
甲骨文
这是一款企业数据库软件套件。
PostgresSQL
这是一款对象关系数据库管理系统。
Riak
这是一款分布式NoSQL数据库。
Splice Machine
这是一款Hadoop关系数据库管理系统。
VoltDB
这是一款内存NewSQL数据库。
Actuate
这是一款嵌入式分析和报表解决方案。
BiBoard
这是一款交互式商业智能仪表板和可视化工具。
ChartIO
这是面向数据库的企业级分析工具。
IBM Cognos
这是一款商业智能和绩效管理软件。
D3JS
这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。
Highcharts
这是面向互联网的交互式JavaScirpt图表。
Logi Analytics
这是自助服务式、基于Web的商业智能和分析应用软件。
微软Power BI
这是交互式数据探查、可视化和演示工具。
Microstrategy
这是一款企业商业智能和分析软件。
甲骨文Hyperion
这是企业绩效管理和商业智能系统。
Pentaho
这是大数据整合和分析解决方案。
SAP Business Objects
这是商业智能解决方案。
Tableau
这是专注于商业智能的交互式数据可视化产品系列。
Tibco Jaspersoft
这是商业智能套件。

回顾2019年中国云计算产业的发展,趁着“产业互联网”火热的东风,云计算也一路高歌前行。阿里巴巴、腾讯、百度、华为等 科技 互联网巨头企业都在持续布局。

Salesforce与阿里巴巴达成战略合作,阿里巴巴推出政务钉钉,百度云升级为百度智能云,百度推出爱番番CRM开放平台,销售易获腾讯独家12亿美元E轮融资,腾讯云全面升级d性计算产品序列,计算性能提升30%;金山办公正式登陆科创板上市、华为新成立“华为云计算技术有限公司” ……这些“新鲜“的云计算故事,也都曾轰动一时,甚至时至今日,仍对云计算领域影响至深。

2020年刚起步,中国云计算“第一股”——UCloud成功登陆科创板,成为众多业内人士在武汉的新型冠状病毒肺炎爆发前,最关注的"热点”之一。

展望2020年,亿欧智库坚定看好云计算领域的发展机会,并将持续输出云计算产业细分领域,如PaaS、SaaS、云安全等领域的研究报告。

值得注意的是,亿欧智库此前发布的《2019年中国云计算行业发展研究报告》所总结的六条云计算产业发展趋势依旧具备长期预判价值。以下列出概括性的内容,具体详见报告正文:

基于此,亿欧智库进一步总结云计算产业的未来发展趋势,帮助业内人士更加及时把握云计算产业最新发展机遇。本篇将重点介绍五条云计算产业有希望快速落地或爆发的主流技术:

无服务器计算(Severless Computing,以下简称Serverless)是一种包含第三方BaaS(后端即服务)服务的应用程序设计方式,与包括FaaS(函数即服务)平台上的托管临时容器中运行的自定义代码。与很多技术趋势一样,Serverless至今还没有明确且清晰的定义,对于开发人员来说,其重点代表两个截然不同但有重合的概念:

Serverless相比IaaS和SaaS,可以更好更快的在云服务商平台上部署应用,完全不用提前测算资源需求,所有功能根据事件驱动,按需加载,执行完毕,资源释放,真正实现了用多少付费多少,降低成本的同时,还提高了开发人员的生产力。

Serverless主要适合于新兴的、事件驱动性的,类似于IoT等传感设备、金融交易类型等场景。

Serverless兴起于2017年,在最近两年伴随云原生概念的推广逐渐火热。

目前 Serverless 在国内的发展和采用依然处于初期阶段,业务实践偏少,仍在不断 探索 之中。相比之下,国外整体要领先 1-2 年,国外几大云厂商前期对整个研发生态的教育和布局较多,应用较早。

现在国外也已经出现不少 Serverless 框架,比较知名包括 Serverlesscom 和 Zeitcom。

根据RightScale的2018年云状态报告,无服务器是当今增长速度很快的云服务模型,年增塑达75%,并有望于2020年超越该增速。亿欧智库也对Serverless的增长速度和市场规模持乐观态度。

Kubernetes(以下简称K8s) 是一个针对容器应用,进行自动部署,d性伸缩,和管理的开源系统。主要负责在大规模服务器环境中管理容器组(pod)的扩展、复制、 健康 ,并解决 pod 的启动、负载均衡等问题。

K8s 能在实体机或虚拟机集群上调度和运行程序容器。K8s 也能让开发者斩断联系着实体机或虚拟机的“锁链”,从以主机为中心的架构跃至以容器为中心的架构。该架构最终提供给开发者诸多内在的优势,例如可移动、可扩展、自修复等。

K8s 也能兼容各种云服务提供商,例如 Google Cloud、Amazon、Microsoft Azure,还可以工作在 CloudStack、OpenStack、OVirt、Photon、VSphere。

K8s 源于 Google 内部的 Borg 项目,经 Google 使用 Go 语言重写后,被命名为Kubernetes,并于 2014 年 6 月开源。目前已有多家大公司,例如 Microsoft、 RedHat、 IBM、Docker,都支持K8s。

从近年来国外K8s发展来看, 巨头公司为自有K8s部门增添活力或构建全新产品的有效手段之一为收购

随着专注于容器初创公司逐渐增加,预计2020年各大云服务商将继续收购表现优秀的容器初创公司,以进军K8s市场,完善其产品体系。

不可否认,K8s作为一项新兴技术距全球普及它还有很长的路要走。但很明显,K8s已经是,并且将继续是软件世界中的主导力量。

服务网格(Service Mesh)是用于控制和监视微服务应用程序中的内部服务到服务流量的软件基础结构层。服务网格的独特之处在于它是为适应分布式微服务环境而构建的。

服务网格的兴起主要是为了解决Docker和Kubernetes无法解决的运行问题。因为诸如Docker和Kubernetes这样的工具主要解决的是部署的问题。但部署不是生产的最后一步,部署完之后,应用程序还必须运行,服务网格因解决运行问题应运而生。

2016年服务网格提出之后,以Linkerd和Envoy为代表的框架开始崭露头角。目前市面上没有现成的商业产品,大多数服务网格都是开源项目,需要一些技巧才能实现。最著名的有:

关于服务网格技术的并购目前也逐渐升温,著名的并购案有VMware在2019年7月以42亿美元收购了Avi Networks以及F5 Networks在2019年5月斥资25亿美元收购了NGINX。

2019年是被确定是适合解决服务网格问题的一年,2020年将会是核心服务网格用例出现的一年。

开源软件(Open Source Software,以下简称OSS)被定义为描述其源码可以被公众使用的软件,并且此软件的使用,修改和分发也不受许可证的限制。

1998年2月,“开源”一词首先被运用于软件。最初的开源软件项目并不是真正的企业,而是一些顶级程序员针对Microsoft、Oracle、SAP等老牌闭源公司对软件收费较高的一场革命。顶级开发人员通常以异步方式协同编写一些出色的软件。每个人不仅可以查看公开的软件,而且通过一种松散的治理模型,他们可以添加,改进和增强它。这是第一代的开源软件项目。

而经过10多年的发展,Linux、MySQL的成功为第二代开源软件公司奠定基础,比如Cloudera和Hortonworks。但第二代开源软件公司中,没有一家公司对软件拥有绝对的控制权,对手经常通过免费提供软件来进行竞争。

之后出现了像Elastic、Mongo和Confluent等第三代开源软件公司提供的Elastic Cloud,Confluent Cloud和MongoDB Atlas这样的服务,这种进化代表着开源软件公司这种模式有机会成为软件基础设施的主要商业模式。

经过22年的发展,如今OSS已经无处不在。OSS领域也发声了一些“大事件”:IBM以320亿美元的价格收购了Redhat(是2014年市值的3倍);Mulesoft在上市后以65亿美金的价格被Salesforce收购;MongoDB现在市值超过40亿美元;Elastic则为60亿美元;并且,通过Cloudera和Hortonworks的合并,将出现一个市值超过40亿美元的新公司……

当然还有很多OSS的公司在路上,例如Confluent、HashiCorp、DataBricks、Kong、Cockroach Labs等。

展望2020年,OSS的理念将与云计算SaaS(软件即服务)的理念更加契合,将大大推动软件产业的创新,并有机会迎来新一轮的发展高潮。

高性能计算(High Performance Computing,以下简称HPC)指能够执行一般个人电脑无法处理的大资料量与高速运算的电脑,其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多。

HPC能够在非常短的时间内执行大量计算,正从过去主要传统科研领域计算密集型为主,逐渐向新兴的大数据、人工智能以及深度学习等方向进行融合和演进。

从应用领域来看,HPC是不同行业中非常专业的领域,可以用于预报天气,也可以是分析风险,还可以分析农场数据,以根据不断变化的天气条件找到最佳的农作物种植地点。

在中国市场当中,主要有联想、浪潮和曙光三家公司处于领先的地位,占据了超过90%的市场份额。这三家公司作为中国HPC市场的状元、榜眼和探花,共同将中国HPC推上了世界第一的位置。

其中,联想连续五年蝉联“HPC China TOP100榜单”第一名,并于2019年11月8日发布“深腾X9000”高性能融合计算平台,该平台在兼顾算的更快、更准、更全面的同时,也使联想成为HPC绿色数据中心的积极倡导者,继续领跑HPC水冷解决方案。

除此之外,联想还在全球160多个国家开展众多领域的突破性研究,这些领域包括癌症、大脑研究、天体物理学、人工智能、气候科学、化学、生物学、 汽车 和航空等。

公开调研资料显示,2018年企业中使用了HPC的比例是36%。随着云计算领域的基础设施完备、资源和数据的增加,HPC的需求也将在2020年有所增加,云服务商有望对HPC进行投资。

众所周知,技术的进步对产业发展和创新具有积极推动作用。

正如近年来区块链、5G、机器学习等技术的发展对传统产业的转型促进一样,Serverless、Service Mesh、K8s、OSS、HPC这些云技术也必将提升IaaS、PaaS、SaaS等传统云计算模式的d性、灵活性、计算能力等,并与传统模式融合互补,协同助推各产业转型升级。

推荐阅读:

千淘万漉,吹尽黄沙,中国智能制造哨声洪亮 | 预见2020

2020银行业展望:对外开放加快,理财转型提速, 科技 深度赋能……

2020物流业新态势:巨头效应显著、 科技 赋能、智慧物流建设加快……

拨云见日,始得真金,产业互联网迎来高光时刻丨预见2020

预见2020:日新月异的中国保险业


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13448324.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-08
下一篇 2023-08-08

发表评论

登录后才能评论

评论列表(0条)

保存