大数据未来的发展趋势_sql

由于数据科学的兴起，Web应用程序开发即将经历一场重大革命。到目前为止，开发者已经基于焦点小组、调查和对用户需求的合理猜测开发了应用程序。这种旧的工作方式是有偏见的，不能包括统计上显著数量的用户的输入。

由于物联网提供了千兆字节的可用数据，这种情况正在扭转。即时且持续的互联网接入引发了一波前所未有的用户生成数据浪潮，这些数据可以转化为可执行的见解。

网络开发公司从设计阶段就开始利用人工智能来理解所有这些数据点，并将这些发现整合到应用程序中。这种方法通过观察目标群体的特定行为和偏好，帮助公司节省时间和成本。

数据重新定义了软件生产领域

目前，软件开发涉及程序员编码或重新利用现有模块，以创建一个可工作的应用程序，满足一些预先设定的需求。深度学习将彻底改变这一现状。

开发者将不再决定应用菜单的位置。通过分析类似应用的使用情况，可以得出哪些对用户来说是必不可少的，哪些是应该强调的。与谷歌的自动补全功能相比，这是向前迈进了一步。

新版本

应用程序的升级也将取决于数据，而不是直觉或焦点小组的反馈。用户通过与app互动或在论坛和社交媒体上陈述需求来表达自己的需求。为了使用这些信息，开发团队应该收集这两种数据流，并将它们转化为可 *** 作的见解。

事实上，英伟达副总裁兼总经理吉姆·麦克休(Jim McHugh)表示，升级将不再是战略团队的关注点，而是会自然而然地从数据中显现出来。当有更多的数据可供训练时，机器学习算法会变得更智能。当这种情况发生时，新的版本就会出现。

例如，一个新版本的聊天机器人将不断升级，使用用户生成的输入来包含以前没有返回令人满意结果的搜索或查询的答案。在这种升级中，开发者几乎没有投入。

数据扰乱开发人员的工作模式

由于当前的工作模式正在发生巨大的变化，网络应用开发者很可能在未来几年内担心失去工作。然而，这并不是对程序员需求降低的问题，而是对一套不同技能的需求。程序员和编码员的需求将比以往任何时候都高，但他们可能必须升级数据科学和数据分析方面的专业知识。

Web开发不再仅仅是写代码，而更多的是结构化数据，清理数据，管理数据，并确保它准备好教授算法。这些技能与十年前面向对象或web编程的含义相比有很大的不同，但在这个行业，进步是必然的。现在的趋势是用R或Matlab编写Python脚本和进行数据分析。

随着代码变得越来越丰富，对于我们现在所知道的开发人员来说，这可能意味着一个时代的结束。机器将有需要的代码在手边，他们也将知道如何整理这些片段到一个工作程序。

数据驱动的web应用程序可以带来什么

目前，理解数据仍然可以给组织带来竞争优势，但它很快将成为最低 *** 作要求。

数据科学可以在几个领域产生真正的影响，包括生产力、效率和个性化。

生产力和虚拟助手

网络应用能够记住我们的喜好，帮助我们重新开始，这样可以节省时间和精力。人工智能可以了解我们的消费习惯、时间使用和生活方式。通过分析这些经历背后的数据，它可以提供个性化的建议，简化我们的选择。

这些应用程序有潜力成为某种私人助理、值得信赖的合作伙伴、智能数据库或智能存储库。有些应用程序会提醒你重要的任务，找出你日程表上的空白，你可以利用这些空白，甚至可以阻止某些有害的习惯，比如拖延症。

加强个性化

人工智能应用很快就会像忠实的助手一样出现在你身边，但它们也比朋友和家人更能进入你的脑海。如今，我们的智能手机已经可以根据地理位置、过去的喜好以及与特定品牌的互动，为我们提供出色的提示。

很像Netflix和Amazon，推荐引擎可以扩展到其他需要提供定制响应的web应用程序。

这不仅是消费世界的下一个潮流，也是应用开发的总体方向。iPhone X和Galaxy S8等新一代智能手机都内置了人工智能功能。

预测的影响

在web应用开发中使用数据科学所引发的变化将对消费者和开发者产生同样的影响。存储在浏览器中的cookie，以及用户在网络会话期间提供的任何数据，将成为用户偏好的暗示，以及用户与之交互的应用的定制方式。对于开发人员来说，相同的数据可以作为升级和增强的主要来源。速度、可靠性和功能仍然有很高的要求，但将用户自己的数据整合到应用的外观、感觉和功能将产生不同。

进入信息化市场，数据库的重要性日益凸显，目前数据库主要分为数据库产品、数据库服务和数据库支撑体系。我国数据库产品以关系型为主，非关系型数据库以键值型数据库为主。

金融、电信、政务、制造和互联网为我国数据库应用最为广泛的领域，但是它们的应用特点各不相同。未来，在企业崛起、国家利好政策和资本关注等因素推动下，我国数据库行业市场规模有望接近7百亿元。

本文核心数据：数据库产品分布、数据库市场规模

数据库主要分为三大类

在信息化时代，数据库已经逐渐应用于各行各业。数据库主要分为三大类：数据库产品、数据库服务和数据库支撑体系。

数据库产品主要由关系型数据库、非关系型数据库、混合型数据库及数据库周边工具构成。

数据库服务是指围绕数据库的咨询规划、实施部署和运维运营等环节，为数据库系统的正常、高效、持续、安全使用提供信息技术服务工作。

数据库支撑体系由从事数据库学术研究、人才培养、开源社区、评测认证等工作的相关主体共同构成。

数据库产品以关系型为主，非关系型数据库以键值型数据库为主

目前，我国数据库产品主要以关系型为主，非关系型及混合型数据库较少。截止2021年6月，我国关系型数据库共有81个，非关系型数据库共有54个。在非关系型数据库中，键值型数据库占比最高，占非关系型数据库的9.26%。

五大行业应用较广，应用特点各不相同

在我国，金融、电信、政务、制造和互联网为我国数据库应用最为广泛的领域，但是它们的应用特点各不相同，金融、电信的IT监管环境较为严格、数据业务较为复杂、核心数据业务呈现“强事务”的特点，而对成本敏感度较低。与之相反的是，互联网领域对IT监管环境较弱，但是对成本敏感度较高。

市场规模有望接近7百亿元

虽然目前我国数据库较欧美国家发展规模较小，2020年我国数据库市场规模约占全球数据库市场规模的5.2%，约为240.9亿元。

但是，随着我国浙江智臾、涛思数据等为代表的时序数据库企业不断涌现，同时得到政策政策以及资本关注，我国数据库行业有望迎来新一轮的增长，2025年我国数据库市场规模有望接近7百亿元。

作者：王慧贤

数据存储、数据分析、数据安全......如今，围绕“数据”的话题越来越多，离人们的生活也越来越近。

从陌生到熟悉，数据不仅“出圈”，甚至已然站在了C位。去年，中央发布的《关于构建更加完善的要素市场化配置体制机制的意见》中明确表示，继土地、劳动力、资本、技术后，数据成为第五大生产要素。

步入信息化时代后，数据库、 *** 作系统与中间件作为计算机最基础的三大软件，支撑着企业的正常运行。

当数据成为生产要素后，必然会迎来爆发式增长，企业的数据存储和处理需求将进一步释放。更重要的是，疫情加快了数字化转型的脚步，更加速了企业的上云速度。

从信息化到数字化，时代的变革，总会带来商业世界的变化。如何在云原生架构下使用数据库，成为企业的痛点和云厂商的机会，亚马逊AWS的CTO Werner Vogels曾多次强调：“数据库是云计算的终极之战。”

在数智化时代，云原生到底意味着什么？云原生数据库和传统数据库相比，核心优势是什么？是否把数据库搬上云就是云原生？基于这些问题，雷锋网与阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞展开一场对话。

国产云原生数据库，摆脱「切肤之痛」

如今，数据库的商业世界，因为云的出现与发展，分成了两大派系。

一派是以Oracle为代表的传统商用数据库，一派是以国外AWS、国内阿里云为代表的云原生数据库，去“IOE革命”下的产物。

其实，早期较为火热的数据库种类有三种，层次式数据库、网络式数据库和关系型数据库。

在《浪潮之巅》一书中，作者吴军写下了这样的观点：“Oracle 的兴起很大程度上靠的是它最早看到关系型数据库的市场前景，并且在商业模式上优于 IBM。”

因此，在云原生数据库“入世”之前，数据库的天下一直是Oracle的，国内大部分互联网公司都不得不采用Oracle+IBM小型机+EMC的模式来维持正常运营。

高昂的费用，使得对于数据库需求较大的互联网巨头“忍无可忍”。

2009年，阿里巴巴的Oracle RAC 集群节点数达到了创记录的20个。可由于Oracle并没有d性扩展的功能，只能按照峰值流量购买小型机和数据库，导致阿里将业务上涨带来的大部分利润，都支付给了Oracle。

第二年，阿里便开始走上了去“IOE”之路，根据开源MySQL搭建了AliSQL，并顺利经过了淘宝双11的考验，国产云原生数据库算是正式摆脱了“切肤之痛”，逐渐受到市场的真正认可。

另一边，国外的AWS在2015年公布了基于云计算的自研数据库Amazon Aurora。Aurora是一个关系型数据库，可以跨3个可用区域复制6份数据，其最大的特性就是高性能和高可用性。

云计算巨头的入局，让云原生数据库在国内外一步步成为主流。据Gartner预测，到了2021年，云数据库在整个数据库市场中的占比将首次达到50%，到2023年，75%的数据库都要跑在云平台之上。

关于云原生数据库，随着逐步的出圈，也让人们关心的焦点从“是啥？”转变为“还能解决哪些问题？”

但云原生数据库存在着数据孤岛的问题，无法打通多个数据系统的情况下，企业在数据加工和数据管理上就会“压力较大”，甚至在数据安全方面还存在隐患。

传统数据仓库一般基于T+1数据集成构建离线数仓，以支撑企业各项分析与服务。传统方案不但会影响线上业务稳定性，且难以支持企业的实时需求。

因此，在李飞飞看来，云原生数据库已经走到2.0阶段。这个阶段要解决的问题，就是上述存在的痛点。

9月26日，在阿里云数据库创新上云峰会上，阿里云发布了首个一站式敏捷数据仓库解决方案。该方案结合一站式数据管理平台DMS及云原生数据仓库AnalyticDB（简称：ADB），实现了库仓一体的技术架构，提供在线数据实时入仓、T+1周期性快照、按需建仓等能力，数据延时低至秒级，持续赋能业务在线化，使企业的在线数据可以释放出更大的价值。

相较于传统方案，阿里云一站式敏捷数据仓库解决方案有4大核心优势：

1、对业务侧影响小，不会因为数据汇聚集中和实时加工影响业务侧正常运行，CPU、内存占用低于5%；

2、事务顺序和数据准确性有保障，且处理链路短，支持在线数据实时处理落仓，效率更高。数据传输效率100m/s，数据延时在10秒内；

3、支持复杂实时数据加工、计算逻辑；

4、低代码 *** 作，能够大大降低实时数仓的构建难度，提升构建效率的同时，支撑企业数字化转型过程中的各类实时场景。

除了实时统计分析场景外，企业为满足周期性数据分析需求，需建设周期性全量快照。

传统数仓的周期性全量集成方案会对生产业务造成稳定性影响、全量集成时效性差、且无法满足客户针对任意时间点进行数据回溯的业务诉求。

针对T+1周期性集成场景，一站式敏捷数据仓库解决方案支持基于拉链表的T+1全量数据快照，用户通过简单几个步骤，即可按需生成各种周期的全量或增量快照。

此外，业务还可按需进行任意时间点的数据回溯，以快速解决数据异常问题。

谈起未来数据库的发展趋势，李飞飞提到以下五点：

1、云原生+分布式一定是数据库的标配，分布式已经是必选项。分布式数据库由多个相互连接的数据库组合而成，面向用户则是以单个数据库的形态出现。云原生分布式数据库具备易用性、高扩展性、快速迭代、节约成本等特征，从资源池化到d性扩展，再到智能运维，再到离在线一体化，解决企业用户的核心诉求。

2、AI for DB（database，指数据库）和 DB for AI 将是主流趋势。用AI将数据库运维管控智能化，尤其在云原生+分布式这个前提下更重要，因为数据库不仅是内核的能力d性高可用、可拓展性，更重要的是部署后应用和运维的复杂度要大大降低。在数据库里，面对越来越多非结构化的数据，分析能力十分重要。

3、数据的安全可信，在今天这个大环境下变得愈发重要，如何确保整个数据库系统，在处理数据全链路过程中提供加密能力、多方安全计算能力、隐私保护的能力，也是很重要的趋势。

4、多模数据处理能力将越来越重要。比如，新型数据库多模态的处理能力，在新能源汽车企业打标签、智能电池化预测等应用场景中，将发挥越来越重要的作用。

5、一份数据，多个数据处理引擎：实现仓库一体、仓库联动、仓库打通，数据之间无缝流转。

以上判断，也从侧面反映出阿里云数据库的走向，这点毋庸置疑。但除此之外，业界最关心的，还有开源。

近半年，国内很多厂商相继提出开源战略，背后缘由显而易见，为了打造生态。就在今年的阿里云峰会上，阿里云智能总裁、达摩院院长张建锋（花名行癫）将2021年阿里云的发展关键词归纳为：做好服务、做深基础、做厚中台、做强生态。

做好服务与生态，成为如今厂商们不约而同的目标，而开源，就是最好的选择。

当雷锋网问到：“未来，阿里云数据库会不会把所有能力都开源？”这一问题时，李飞飞给到的回答是：“不会。”

之所以有这样的回答，是因为对于开源，他有着一些判断和看法。

李飞飞表示，这些部分，本就是阿里云数据库的商业化版本。

事实上，业界大多数的数据库厂商都不会针对自身的核心能力开源，如TiDB的核心管控组件、TiFlash。

与像MongoDB,、Cassandra、CouchDB这些以开源起家的数据库厂商不同，开源只是阿里云数据库的战略，不是阿里云数据库的命脉。

前几年，有业内人士表示，在面向开源时，国产数据库首先需要解决信任以及开源知识产权等问题。“开源会让厂商更加认真思考版权还有专利的问题，事实上，选择开源后，对于数据库厂商提出了更高的要求。”

李飞飞认为，开源只是一种选择，数据库开源成功并不代表着商业化就能够成功，不开源也不能代表厂商不先进。

更准确的说，开源只是一种有效手段。

最终，阿里云数据库希望客户能够通过开源版本把阿里云数据库产品技术快速用起来，并能够参与到技术产品的迭代过程中，在一些高阶能力上，借鉴团队专业能力和阿里云的服务能力，成为良好的商业合作伙伴，这是李飞飞以及阿里云数据库对于开源的一些基本思考。雷锋网雷锋网雷锋网

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/6694057.html

大数据未来的发展趋势

发表评论

评论列表（0条）