为什么有人说阿里巴巴已经大到无法倒了_工具

我觉得这种看法并不正确，可以说代表着一些极端偏见，你要知道在当今的这种开放的市场环境下，只要你这个公司不适应当今市场的发展，无论你现在发展到了什么样的地步，即使你是世界500强之首，那么在未来你也有可能会被这个市场所淘汰，然后将会有另一个公司来代替你的位置，所以对于阿里巴巴来说也同样不例外，它也不可能逃脱这个规则。

但是话又说回来，阿里巴巴如今的发展势头确实很强盛，阿里巴巴不仅在支付领域领先同行的企业，而且在其他的领域也有不俗的建树，就比如说在阿里云大数据库这一方面阿里巴巴就做到了同行业的第一，并且在未来阿里云大数据库将会派上更重要的用场，举个最简单的例子，用阿里云数据库来计算红绿灯的等待时间将会大大地延缓交通的拥挤。

所以在未来只要阿里巴巴照着这个正确的方向一直走下去，并且在决策上不要有什么特别大的失误，我相信阿里巴巴可以一直这么强盛的发展下去，甚至有一天可以挤进世界前50强，而且阿里巴巴旗下的业务确实方便了人们的生活，就单纯的拿支付宝来说的话，就是当今的人非常依赖的一种支付产品，并且在别的国家没有这种支付手段。

最后在这里我祝愿阿里巴巴将会发展得越来越好，同时也希望它能够开发更多便民的产品供人们使用。

摘要：

1、关系型数据库： 2019年中国关系型数据库软件市场规模为134亿美元，同比增长308%。， 未来5年整体市场年复合增速为233% ，本土厂商份额持续提升；B端对应数据库的需求额略高于 *** 作系统，且带来高业绩d性，建议关注行业稀缺龙头 太极股份、中国软件 ，以及自研内存数据库 顶点软件、科蓝软件 。

2、科蓝软件： 国内互联网银行解决方案的领军企业，互联网银行解决方案的市占率为167%，位居国内第一，线上金融业务快速增长；数据库呈现爆发式增长，公司并购高端内存数据库， 取得Goldilocks数据库完整自主知识产权 ，在国产数据库中具备竞争力； 阿里间接持股公司34%股权 ， 数据库业务在20年下半年将迎来订单，21-22年实现放量 ，20-21年业绩有望加速成长。

3、精锻科技： 国内精密锻造件龙头，差速器收入占比达到70%以上， 国内市场份额超30% ，受益电动化趋势， 单车价值量有望提升3倍以上 ，目前定点配套全球主流新能源平台；依托精密锻造优势，进军底盘轻量化领域，为德系客户配套；目前资本开支已到达顶峰，后续有望下降， 迎来收入、毛利率双升阶段 。

正文：

1、被忽视的科技细分！年增速30%以上，重要性不亚于芯片、 *** 作系统（东吴证券）

①中国关系型数据库软件市场高速发展

根据IDC报告，2019年中国关系型数据库软件市场规模为134亿美元，同比增长308%。其中，传统部署模式市场规模为79亿美元，公有云模式市场规模为55亿美元。

IDC预测，到2024年，中国关系型数据库软件市场规模将达到382亿美元， 未来5年整体市场年复合增速（CAGR）为233% 。

公有云服务驱动关系型数据库市场快速增长。IDC预计， 公有云关系型数据库软件市场未来5年整体市场年复合增速为355% 。到2024年，中国公有云关系型数据库软件市场规模将达到251亿美元。

②国内数据库市场蓬勃发展

近年来，传统数据库厂商和公有云数据库服务商都在加速产品迭代和推出新的产品。同时新兴数据库厂商不断涌现，包括巨杉数据库、PingCAP、柏睿数据、海量数据、华为、中兴等。

国际数据库厂商增长乏力，本土厂商份额上升，在企业新系统建设中占据优势。

③相关上市公司

B端对应数据库的需求金额略高于 *** 作系统，且较高的净利率给相关公司带来高业绩d性，建议关注国内稀缺关系型数据库龙头 太极股份、中国软件 ，以及自研内存数据库 顶点软件、科蓝软件 。

2、国产数据库隐形龙头！明年订单有望爆发，阿里间接持股3%（兴业证券）

①互联网银行解决方案领军企业

科蓝软件是国内互联网银行解决方案的领军企业，产品实现银行渠道类、业务类和管理类领域全覆盖，包括分布式内存数据库、银行网点智能设备、电子银行系统、互联网金融类系统、网络安全系统以及银行线上线下一体化核心业务系统等。

线上金融业务快速提升，营收稳步增长，电子银行和互联网银行类业务占比近90% 。2019年，公司实现总营收934亿元，同比增长2398%；归母净利润4951万元，同比增长1628%。

银行IT市场规模不断增长，在银行IT解决方案细分市场中，科蓝软件互联网银行解决方案的市占率为167%，渠道类解决方案的市占率为84%，网络银行解决方案子市占率为 185%，移动银行解决方案市占率为173%， 均位居市场第一 。

②数据库爆发式增长，并购高端内存数据库带来新增长机遇

作为数据存储管理软件， 数据库在基础软件领域的地位不亚于芯片、 *** 作系统 ，国产数据库呈现爆发式增长。

18年柯蓝软件收购分布式内存数据库企业SUNJE SOFT 674%的股权，通过数据库产品积极部署信创赛道。 科蓝软件取得Goldilocks数据库完整自主知识产权 ，走高端数据库路线，自主可控、无开源及版权冲突可能，有望打开国产替代空间。

目前，Goldilocks在国内多个银行互联网核心系统完成测试，中国联通Boss大集中系统即采用了SUNJESOFT数据库，已稳定运行5年以上。公司 数据库业务有望在2020年下半年迎来订单，2021-2022年实现放量 。

此外公司还获得了 阿里的间接投资 ， 蚂蚁金服旗下云鑫创业持有公司342%股权 ，并在互联网金融系统上展开深度合作。

3、汽车零部件隐形龙头 ！ 核心产品市占率超过30%，单车价值量有望提升3倍（招商证券）

精锻科技是国内精密锻造件隐形龙头，差速器市场份额超30%，迎来收入、毛利率双增长阶段。

①受益电动化趋势，差速器单车价值量提升3倍以上

新能源汽车通常只有1-2个档位，变速时受到的冲击更大，对差速器强度、精度、总成化性能要求跟高， 单价由100元提升至300元以上 。

公司 差速器收入占比达到70%以上，国内市场份额超30% ，通过研发构筑高壁垒，目前公司已定点配套大众MEB、沃尔沃、通用、福特、蔚来、小鹏、吉利、广汽、北汽等主流新能源平台。

②进军底盘轻量化领域

精密锻造具备较高护城河，公司在国内鲜有对手，第一大客户大众系占比40%，同时配套奔驰、宝马等客户。

为配合客户的国产化配套，公司积极投建转向节、控制臂产能，进军底盘轻量化领域。依托精密锻造的平台能力，由差速器总成横向拓展至新能源电机轴、轴毛坯等相关领域， 单车价值提升至1000元 。

③投入期接近尾声，迎来收入、毛利率双升期

2019年公司资本开支55亿，达到高点，重大项目分别于2019Q3开始陆续达产，预计20年将回落至3亿左右，此后维持在2-3亿水平。

本文主要整理自阿里巴巴计算平台事业部资深技术专家莫问在云栖大会的演讲。

合抱之木，生于毫末

随着人工智能时代的降临，数据量的爆发，在典型的大数据的业务场景下数据业务最通用的做法是：选用批处理的技术处理全量数据，采用流式计算处理实时增量数据。在绝大多数的业务场景之下，用户的业务逻辑在批处理和流处理之中往往是相同的。但是，用户用于批处理和流处理的两套计算引擎是不同的。

因此，用户通常需要写两套代码。毫无疑问，这带来了一些额外的负担和成本。阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题，所以阿里就在想，我们能不能有一套统一的大数据引擎技术，用户只需要根据自己的业务逻辑开发一套代码。这样在各种不同的场景下，不管是全量数据还是增量数据，亦或者实时处理，一套方案即可全部支持， 这就是阿里选择Flink的背景和初衷 。

目前开源大数据计算引擎有很多选择，流计算如Storm,Samza,Flink,Kafka Stream等，批处理如Spark,Hive,Pig,Flink等。而同时支持流处理和批处理的计算引擎，只有两种选择：一个是Apache Spark，一个是Apache Flink。

从技术，生态等各方面的综合考虑。首先，Spark的技术理念是基于批来模拟流的计算。而Flink则完全相反，它采用的是基于流计算来模拟批计算。

从技术发展方向看，用批来模拟流有一定的技术局限性，并且这个局限性可能很难突破。而Flink基于流来模拟批，在技术上有更好的扩展性。从长远来看，阿里决定用Flink做一个统一的、通用的大数据引擎作为未来的选型。

Flink是一个低延迟、高吞吐、统一的大数据计算引擎。在阿里巴巴的生产环境中，Flink的计算平台可以实现毫秒级的延迟情况下，每秒钟处理上亿次的消息或者事件。同时Flink提供了一个Exactly-once的一致性语义。保证了数据的正确性。这样就使得Flink大数据引擎可以提供金融级的数据处理能力。

Flink在阿里的现状

基于Apache Flink在阿里巴巴搭建的平台于2016年正式上线，并从阿里巴巴的搜索和推荐这两大场景开始实现。目前阿里巴巴所有的业务，包括阿里巴巴所有子公司都采用了基于Flink搭建的实时计算平台。同时Flink计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度，以 HDFS作为数据存储。因此，Flink可以和开源大数据软件Hadoop无缝对接。

目前，这套基于Flink搭建的实时计算平台不仅服务于阿里巴巴集团内部，而且通过阿里云的云产品API向整个开发者生态提供基于Flink的云产品支持。

Flink在阿里巴巴的大规模应用，表现如何？

规模： 一个系统是否成熟，规模是重要指标，Flink最初上线阿里巴巴只有数百台服务器，目前规模已达上万台，此等规模在全球范围内也是屈指可数；

状态数据： 基于Flink，内部积累起来的状态数据已经是PB级别规模；

Events： 如今每天在Flink的计算平台上，处理的数据已经超过万亿条；

PS： 在峰值期间可以承担每秒超过472亿次的访问，最典型的应用场景是阿里巴巴双11大屏；

Flink的发展之路

接下来从开源技术的角度，来谈一谈Apache Flink是如何诞生的，它是如何成长的？以及在成长的这个关键的时间点阿里是如何进入的？并对它做出了那些贡献和支持？

Flink诞生于欧洲的一个大数据研究项目StratoSphere。该项目是柏林工业大学的一个研究性项目。早期，Flink是做Batch计算的，但是在2014年，StratoSphere里面的核心成员孵化出Flink，同年将Flink捐赠Apache，并在后来成为Apache的顶级大数据项目，同时Flink计算的主流方向被定位为Streaming，即用流式计算来做所有大数据的计算，这就是Flink技术诞生的背景。

2014年Flink作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。区别于Storm,Spark Streaming以及其他流式计算引擎的是：它不仅是一个高吞吐、低延迟的计算引擎，同时还提供很多高级的功能。比如它提供了有状态的计算，支持状态管理，支持强一致性的数据语义以及支持Event Time,WaterMark对消息乱序的处理。

Flink核心概念以及基本理念

Flink最区别于其他流计算引擎的，其实就是状态管理。

什么是状态？例如开发一套流计算的系统或者任务做数据处理，可能经常要对数据进行统计，如Sum,Count,Min,Max,这些值是需要存储的。因为要不断更新，这些值或者变量就可以理解为一种状态。如果数据源是在读取Kafka,RocketMQ，可能要记录读取到什么位置，并记录Offset，这些Offset变量都是要计算的状态。

Flink提供了内置的状态管理，可以把这些状态存储在Flink内部，而不需要把它存储在外部系统。这样做的好处是第一降低了计算引擎对外部系统的依赖以及部署，使运维更加简单；第二，对性能带来了极大的提升：如果通过外部去访问，如Redis,HBase它一定是通过网络及RPC。如果通过Flink内部去访问，它只通过自身的进程去访问这些变量。同时Flink会定期将这些状态做Checkpoint持久化，把Checkpoint存储到一个分布式的持久化系统中，比如HDFS。这样的话，当Flink的任务出现任何故障时，它都会从最近的一次Checkpoint将整个流的状态进行恢复，然后继续运行它的流处理。对用户没有任何数据上的影响。

Flink是如何做到在Checkpoint恢复过程中没有任何数据的丢失和数据的冗余？来保证精准计算的？

这其中原因是Flink利用了一套非常经典的Chandy-Lamport算法，它的核心思想是把这个流计算看成一个流式的拓扑，定期从这个拓扑的头部Source点开始插入特殊的Barries，从上游开始不断的向下游广播这个Barries。每一个节点收到所有的Barries,会将State做一次Snapshot，当每个节点都做完Snapshot之后，整个拓扑就算完整的做完了一次Checkpoint。接下来不管出现任何故障，都会从最近的Checkpoint进行恢复。

Flink利用这套经典的算法，保证了强一致性的语义。这也是Flink与其他无状态流计算引擎的核心区别。

下面介绍Flink是如何解决乱序问题的。比如星球大战的播放顺序，如果按照上映的时间观看，可能会发现故事在跳跃。

在流计算中，与这个例子是非常类似的。所有消息到来的时间，和它真正发生在源头，在线系统Log当中的时间是不一致的。在流处理当中，希望是按消息真正发生在源头的顺序进行处理，不希望是真正到达程序里的时间来处理。Flink提供了Event Time和WaterMark的一些先进技术来解决乱序的问题。使得用户可以有序的处理这个消息。这是Flink一个很重要的特点。

接下来要介绍的是Flink启动时的核心理念和核心概念，这是Flink发展的第一个阶段；第二个阶段时间是2015年和2017年，这个阶段也是Flink发展以及阿里巴巴介入的时间。故事源于2015年年中，我们在搜索事业部的一次调研。当时阿里有自己的批处理技术和流计算技术，有自研的，也有开源的。但是，为了思考下一代大数据引擎的方向以及未来趋势，我们做了很多新技术的调研。

结合大量调研结果，我们最后得出的结论是：解决通用大数据计算需求，批流融合的计算引擎，才是大数据技术的发展方向，并且最终我们选择了Flink。

但2015年的Flink还不够成熟，不管是规模还是稳定性尚未经历实践。最后我们决定在阿里内部建立一个Flink分支，对Flink做大量的修改和完善，让其适应阿里巴巴这种超大规模的业务场景。在这个过程当中，我们团队不仅对Flink在性能和稳定性上做出了很多改进和优化，同时在核心架构和功能上也进行了大量创新和改进，并将其贡献给社区，例如：Flink新的分布式架构，增量Checkpoint机制,基于Credit-based的网络流控机制和Streaming SQL等。

阿里巴巴对Flink社区的贡献

我们举两个设计案例，第一个是阿里巴巴重构了Flink的分布式架构，将Flink的Job调度和资源管理做了一个清晰的分层和解耦。这样做的首要好处是Flink可以原生的跑在各种不同的开源资源管理器上。经过这套分布式架构的改进，Flink可以原生地跑在Hadoop Yarn和Kubernetes这两个最常见的资源管理系统之上。同时将Flink的任务调度从集中式调度改为了分布式调度，这样Flink就可以支持更大规模的集群，以及得到更好的资源隔离。

另一个是实现了增量的Checkpoint机制，因为Flink提供了有状态的计算和定期的Checkpoint机制，如果内部的数据越来越多，不停地做Checkpoint,Checkpoint会越来越大，最后可能导致做不出来。提供了增量的Checkpoint后，Flink会自动地发现哪些数据是增量变化，哪些数据是被修改了。同时只将这些修改的数据进行持久化。这样Checkpoint不会随着时间的运行而越来越难做，整个系统的性能会非常地平稳，这也是我们贡献给社区的一个很重大的特性。

经过2015年到2017年对Flink Streaming的能力完善，Flink社区也逐渐成熟起来。Flink也成为在Streaming领域最主流的计算引擎。因为Flink最早期想做一个流批统一的大数据引擎，2018年已经启动这项工作，为了实现这个目标，阿里巴巴提出了新的统一API架构，统一SQL解决方案，同时流计算的各种功能得到完善后，我们认为批计算也需要各种各样的完善。无论在任务调度层，还是在数据Shuffle层，在容错性，易用性上，都需要完善很多工作。

篇幅原因，下面主要和大家分享两点：

● 统一 API Stack

● 统一 SQL方案

先来看下目前Flink API Stack的一个现状，调研过Flink或者使用过Flink的开发者应该知道。Flink有2套基础的API，一套是DataStream，一套是DataSet。DataStream API是针对流式处理的用户提供，DataSet API是针对批处理用户提供，但是这两套API的执行路径是完全不一样的，甚至需要生成不同的Task去执行。所以这跟得到统一的API是有冲突的，而且这个也是不完善的，不是最终的解法。在Runtime之上首先是要有一个批流统一融合的基础API层，我们希望可以统一API层。

因此，我们在新架构中将采用一个DAG（有限无环图）API，作为一个批流统一的API层。对于这个有限无环图，批计算和流计算不需要泾渭分明的表达出来。只需要让开发者在不同的节点，不同的边上定义不同的属性，来规划数据是流属性还是批属性。整个拓扑是可以融合批流统一的语义表达，整个计算无需区分是流计算还是批计算，只需要表达自己的需求。有了这套API后，Flink的API Stack将得到统一。

除了统一的基础API层和统一的API Stack外，同样在上层统一SQL的解决方案。流和批的SQL，可以认为流计算有数据源，批计算也有数据源，我们可以将这两种源都模拟成数据表。可以认为流数据的数据源是一张不断更新的数据表，对于批处理的数据源可以认为是一张相对静止的表，没有更新的数据表。整个数据处理可以当做SQL的一个Query，最终产生的结果也可以模拟成一个结果表。

对于流计算而言，它的结果表是一张不断更新的结果表。对于批处理而言，它的结果表是相当于一次更新完成的结果表。从整个SOL语义上表达，流和批是可以统一的。此外，不管是流式SQL，还是批处理SQL，都可以用同一个Query来表达复用。这样以来流批都可以用同一个Query优化或者解析。甚至很多流和批的算子都是可以复用的。

Flink的未来方向

首先，阿里巴巴还是要立足于Flink的本质，去做一个全能的统一大数据计算引擎。将它在生态和场景上进行落地。目前Flink已经是一个主流的流计算引擎，很多互联网公司已经达成了共识：Flink是大数据的未来，是最好的流计算引擎。下一步很重要的工作是让Flink在批计算上有所突破。在更多的场景下落地，成为一种主流的批计算引擎。然后进一步在流和批之间进行无缝的切换，流和批的界限越来越模糊。用Flink,在一个计算中，既可以有流计算，又可以有批计算。

第二个方向就是Flink的生态上有更多语言的支持，不仅仅是Java，Scala语言，甚至是机器学习下用的Python，Go语言。未来我们希望能用更多丰富的语言来开发Flink计算的任务，来描述计算逻辑，并和更多的生态进行对接。

最后不得不说AI，因为现在很多大数据计算的需求和数据量都是在支持很火爆的AI场景，所以在Flink流批生态完善的基础上，将继续往上走，完善上层Flink的Machine Learning算法库，同时Flink往上层也会向成熟的机器学习，深度学习去集成。比如可以做Tensorflow On Flink, 让大数据的ETL数据处理和机器学习的Feature计算和特征计算，训练的计算等进行集成，让开发者能够同时享受到多种生态给大家带来的好处。

30多人。

阿里巴巴数据库内核团队拥有多位国内外的博士学者，团队的主要工作是存储和计算分离，打破了存储的单机限制，支持基于分布式共享存储的一写多读架构，提升资源利用率。支持全球化的部署和数据异地灾备，提高数据安全性和系统可用性，接触当今最前沿的数据库技术。

以上就是关于为什么有人说阿里巴巴已经大到无法倒了全部的内容，包括:为什么有人说阿里巴巴已经大到无法倒了、国产数据库隐形龙头！明年订单有望爆发，阿里间接持股3%、转载：阿里巴巴为什么选择Apache Flink等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9580869.html

为什么有人说阿里巴巴已经大到无法倒了

发表评论

评论列表（0条）