大数据分析技术生态圈一览_工具

大数据分析技术生态圈一览

大数据领域让人晕头转向。为了帮助你，我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商，而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。

这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。

Platfora

这是一款大数据发现和分析平台。

Qlikview

这是一款引导分析平台。

Sisense

这是一款商业智能软件，专门处理复杂数据的商业智能解决方案。

Sqream

这是一款快速、可扩展的大数据分析SQL数据库。

Splunk

这是一款运维智能平台。

Sumologic

这是一项安全的、专门定制的、基于云的机器数据分析服务。

Actian

这是一款大数据分析平台。

亚马逊Redshift

这是一项PB级云端数据仓库服务。

CitusData

可扩展PostgreSQL。

Exasol

这是一种用于分析数据的大规模并行处理(MPP)内存数据库。

惠普Vertica

这是一款SQL on Hadoop大数据分析平台。

Mammothdb

这是一款与SQL兼容的MPP分析数据库。

微软SQL Server

这是一款关系数据库管理系统。

甲骨文Exadata

这是一款计算和存储综合系统，针对甲骨文数据库软件进行了优化。

SAP HANA

这是一款内存计算平台。

Snowflake

这是一款云数据仓库。

Teradata

这是企业级大数据分析和服务。

数据探查

Apache Drill

这是一款无数据库模式的SQL查询引擎，面向Hadoop、NoSQL和云存储。

Cloudera Impala

这是一款开源大规模并行处理SQL查询引擎。

谷歌BigQuery

这是一项全面托管的NoOps数据分析服务。

Presto

这是一款面向大数据的分布式SQL查询引擎。

Spark

这是一款用于处理大数据的快速通用引擎。

平台/基础设施

亚马逊网络服务(AWS)

提供云计算服务

思科云

提供基础设施即服务

Heroku

为云端应用程序提供平台即服务

Infochimps

提供云服务的大数据解决方案

微软Azure

这是一款企业级云计算平台。

Rackspace

托管专业服务和云计算服务

Softlayer(IBM)

提供云基础设施即服务

数据基础设施

Cask

这是一款面向Hadoop解决方案的开源应用程序平台。

Cloudera

提供基于Hadoop的软件、支持和服务。

Hortonworks

管理HDP――这是一款开源企业Apache Hadoop数据平台。

MAPR

这是面向大数据部署环境的Apache Hadoop技术。

垂直领域应用/数据挖掘

Alpine Data Labs

这是一种高级分析平台，可处理Apache Hadoop和大数据。

这是一种免费软件环境，可处理统计计算和图形。

Rapidminer

这是一款开源预测分析平台

SAS

这是一款软件套件，可以挖掘、改动、管理和检索来自众多数据源的数据。

提取、转换和加载(ETL)

IBM Datastage

使用一种高性能并行框架，整合多个系统上的数据。

Informatica

这是一款企业数据整合和管理软件。

Kettle-Pentaho Data Integration

提供了强大的提取、转换和加载(ETL)功能。

微软SSIS

这是一款用于构建企业级数据整合和数据转换解决方案的平台。

甲骨文Data Integrator

这是一款全面的数据整合平台。

SAP

NetWeaver为整合来自各个数据源的数据提供了灵活方式。

Talend

提供了开源整合软件产品

Cassandra

这是键值数据库和列式数据库的混合解决方案。

CouchBase

这是一款开源分布式NoSQL文档型数据库。

Databricks

这是使用Spark的基于云的大数据处理解决方案。

Datastax

为企业版的Cassandra数据库提供商业支持。

IBM DB2

这是一款可扩展的企业数据库服务器软件。

MemSQL

这是一款分布式内存数据库。

MongoDB

这是一款跨平台的文档型数据库。

MySQL

这是一款流行的开源数据库。

甲骨文

这是一款企业数据库软件套件。

PostgresSQL

这是一款对象关系数据库管理系统。

Riak

这是一款分布式NoSQL数据库。

Splice Machine

这是一款Hadoop关系数据库管理系统。

VoltDB

这是一款内存NewSQL数据库。

Actuate

这是一款嵌入式分析和报表解决方案。

BiBoard

这是一款交互式商业智能仪表板和可视化工具。

ChartIO

这是面向数据库的企业级分析工具。

IBM Cognos

这是一款商业智能和绩效管理软件。

D3JS

这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。

Highcharts

这是面向互联网的交互式JavaScirpt图表。

Logi Analytics

这是自助服务式、基于Web的商业智能和分析应用软件。

微软Power BI

这是交互式数据探查、可视化和演示工具。

Microstrategy

这是一款企业商业智能和分析软件。

甲骨文Hyperion

这是企业绩效管理和商业智能系统。

Pentaho

这是大数据整合和分析解决方案。

SAP Business Objects

这是商业智能解决方案。

Tableau

这是专注于商业智能的交互式数据可视化产品系列。

Tibco Jaspersoft

这是商业智能套件。

数据库行业正走向分水岭。

过去几年，全球数据库行业发展迅猛。2020年，Gartner首次把数据库领域的魔力象限重新定义为Cloud DBMS，把云数据库作为唯一的评价方向；2021年，Gartner魔力象限又发生了两个关键的变化： 1、Snowflake和Databricks两个云端数据仓库进入领导者象限；2、放开了魔力象限的收入门槛限制，SingleStore、Exasol、MariaDB、Couchbase等数据库新势力首次进入榜单。

某种程度上，这种变化的背后，暗示着全球数据库已经进入发展的黄金时代，也是一众新兴势力的加速崛起之年。其中，最为典型的例子是Snowflake和Databricks经常隔空喊话，前者是云端数仓的代表玩家，去年继续保持了1倍以上的业务增长；后者因推出“湖仓一体”，估值一路飙升至360亿美金，两者之争，其实是数据库新旧架构之争。

随着企业数字化驶入深水区，对于数据使用场景也呈现多元化的趋势，过去容易被企业忽略的数据，开始从幕后走到台前，如何为众多场景选择一款合适的数据库产品，已经成了很多CIO和管理者的一道必答题。但有一点可以确定的是，过去的数据库已难以匹配眼下日益增长的数据复杂度需求，基于扩展性和可用性划分，分布式架构突破单机、共享、集群架构下的数据库局限，近些年发展态势迅猛。为此，这篇文章我们将主要分析：

1、数据仓、数据湖、湖仓一体究竟是什么？

2、架构演进，为什么说湖仓一体代表了未来？

3、现在是布局湖仓一体的好时机吗？

01：数据湖+数据仓湖仓一体

在湖仓一体出现之前，数据仓库和数据湖是被人们讨论最多的话题。

正式切入主题前，先跟大家科普一个概念，即大数据的工作流程是怎样的？这里就要涉及到两个相对陌生的名词： 数据的结构化程度 和 数据的信息密度 。前者描述的是数据本身的规范性，后者描述的是单位存储体积内、包含信息量的大小。

一般来说，人们获取到的原始数据大多是非结构化的，且信息密度比较低，通过对数据进行清洗、分析、挖掘等 *** 作，可以排除无用数据、找到数据中的关联性，在这个过程中，数据的结构化程度、信息密度也随之提升，最后一步，就是把优化过后的数据加以利用，变成真正的生产资料。

简而言之，大数据处理的过程其实是一个提升数据结构化程度和信息密度的过程。 在这个过程中，数据的特征一直在发生变化，不同的数据，适合的存储介质也有所不同，所以才有了一度火热的数据仓库和数据湖之争。

我们先来聊聊数据仓库，它诞生于1990年，是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，主要用于支持管理决策和信息的全局共享。 简单点说，数据仓库就像是一个大型图书馆，里面的数据需要按照规范放好，你可以按照类别找到想要的信息 。

就目前来说，对数据仓库的主流定义是位于多个数据库上的大容量存储库，它的作用在于存储大量的结构化数据，为管理分析和业务决策提供统一的数据支持，虽然存取过程相对比较繁琐，对于数据类型有一定限制，但在那个年代，数据仓库的功能性已经够用了，所以在2011年前后，市场还是数据仓库的天下。

到了互联网时代，数据量呈现“井喷式”爆发，数据类型也变得异构化。受数据规模和数据类型的限制，传统数据仓库无法支撑起互联网时代的商业智能，随着Hadoop与对象存储的技术成熟，数据湖的概念应用而生，在2011年由James Dixon提出。

相比于数据仓库，数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。它就像一个大型仓库，可以存储任何形式（包括结构化和非结构化）和任何格式（包括文本、音频、视频和图像）的原始数据，数据湖通常更大，存储成本也更为廉价。但它的问题也很明显，数据湖缺乏结构性，一旦没有被治理好，就会变成数据沼泽。

从产品形态上来说，数据仓库一般是独立标准化产品，数据湖更像是一种架构指导，需要配合着系列周边工具，来实现业务需要。换句话说，数据湖的灵活性，对于前期开发和前期部署是友好的；数据仓库的规范性，对于大数据后期运行和公司长期发展是友好的，那么，有没有那么一种可能，有没有一种新架构，能兼具数据仓库和数据湖的优点呢？

于是，湖仓一体诞生了。 依据DataBricks公司对Lakehouse 的定义，湖仓一体是一种结合了数据湖和数据仓库优势的新范式，在用于数据湖的低成本存储上，实现与数据仓库中类似的数据结构和数据管理功能。湖仓一体是一种更开放的新型架构，有人把它做了一个比喻，就类似于在湖边搭建了很多小房子，有的负责数据分析，有的运转机器学习，有的来检索音视频等，至于那些数据源流，都可以从数据湖里轻松获取。

就湖仓一体发展轨迹来看，早期的湖仓一体，更多是一种处理思想，处理上将数据湖和数据仓库互相打通，现在的湖仓一体，虽然仍处于发展的初期阶段，但它已经不只是一个纯粹的技术概念，而是被赋予了更多与厂商产品层面相关的含义和价值。

这里需要注意的是，“湖仓一体”并不等同于“数据湖”+“数据仓”，这是一个极大的误区，现在很多公司经常会同时搭建数仓、数据湖两种存储架构，一个大的数仓拖着多个小的数据湖，这并不意味着这家公司拥有了湖仓一体的能力，湖仓一体绝不等同于数据湖和数据仓简单打通，反而数据在这两种存储中会有极大冗余度。

02：为什么说湖仓一体是未来？

回归开篇的核心问题：湖仓一体凭什么能代表未来？

关于这个问题，我们其实可以换一个问法，即 在数据智能时代，湖仓一体会不会成为企业构建大数据栈的必选项？ 就技术维度和应用趋势来看，这个问题的答案几乎是肯定的，对于高速增长的企业来说，选择湖仓一体架构来替代传统的独立仓和独立湖，已经成为不可逆转的趋势。

一个具有说服力的例证是，现阶段，国内外各大云厂商均陆续推出了自己的“湖仓一体”技术方案，比如亚马逊云科技的Redshift Spectrum、微软的Azure Databricks、华为云的Fusion Insight、滴普科技的FastData等，这些玩家有云计算的老牌龙头，也有数据智能领域的新势力。

事实上，架构的演进是由业务直接驱动的，如果业务侧提出了更高的性能要求，那么在大数据架构建设的过程中，就需要数据库架构建设上进行技术升级。以国内数字化企业服务领域成长最快的独角兽滴普科技为例，依托新一代湖仓一体、流批一体的数据分析基础平台FastData，基于对先进制造、生物医药、消费流通等行业的深度洞察，滴普科技从实际场景切入，为客户提供了一站式的数字化解决方案。

滴普方面认为，“ 在数据分析领域，湖仓一体是未来。它 可以更好地应对AI时代数据分析的需求，在存储形态、计算引擎、数据处理和分析、开放性以及面向AI的演进等方面，要领先于过去的分析型数据库。”以AI应用层面为例，湖仓一体架构天然适合AI类的分析（包括音视频非结构化数据存储，兼容AI计算框架，具有模型开发和机器学习全生命周期的平台化能力），也更适合大规模机器学习时代。

这一点，和趋势不谋而合。

就在前不久，Gartner发布了湖仓一体的未来应用场景预测：湖仓一体架构需要支持三类实时场景，第一类是实时持续智能；第二类是实时按需智能；第三类是离线按需智能，这三类场景将可以通过快照视图、实时视图以及实时批视图提供给数据消费者，这同样是未来湖仓一体架构需要持续演进的方向。

03：现在是布局湖仓一体的好时机吗？

从市场发展走向来看，“湖仓一体”架构是基于技术发展进程的必经之路。

但由于这个新型开放架构仍处于发展早期，国内外企业数字化水平和市场认知的不同，造成了解决方案也存在着较大的差异。在业内投资人看来，“ 虽然美国的企业服务市场比我们成熟的多，也有很多路径可以参考，但中国市场却有着很多中国特色。以对标Databricks的滴普科技为例，美国企业服务市场往往卖产品就可以了，但中国大客户群体需要更与客户资深场景深度融合的解决方案，解决方案需要兼顾通用性和定制化。 ”

在此前与滴普科技的合作中，百丽国际就已经完成了统一数仓的搭建，实现了多个业务线的数据采集和各个业务域的数据建设。在保证前端数据正常运行、“热切换”底层应用的前提下，滴普科技和百丽国际紧密协作，在短短几个月时间里将多个数仓整合为统一数仓，有效统一了业务口径，大幅缩减了开发运维工作量，整个业务价值链也形成了闭环。

这也是“湖仓一体”的能力价值所在：随着数据结构的逐渐多样性，3D图纸、直播视频、会议视频、音频等数据资料越来越多，为深度挖掘数据价值，依托于领先的湖仓一体技术架构，百丽国际可先将海量的多模数据存储入湖，在未来算力允许时，及挖掘深度的业务分析场景后，从数据湖中抓取数据分析。

举个简单的例子，某个设计师想要设计一款鞋子，一般会从历史数据中找有效信息参考，设计师也许只需要一张货品照片，就能像浏览**般，了解到该商品多年来全生命周期的销售业绩、品牌故事、竞品分析等数据，赋能生产及业务决策，实现数据价值的最大化。

一般来说，大体量的企业想要保持持续增长，往往需要依靠大量、有效的数据输出，进而实现智慧决策。很多企业出于 IT 建设能力的限制，导致很多事情没法做，但通过湖仓一体架构，让之前被限制的数据价值得以充分发挥，如果企业能够在注重数据价值的同时，并有意识地把它保存下来，企业就完成了数字化转型的重要命题之一。

我们也有理由相信，随着企业数字化转型加速，湖仓一体架构也会有更为广阔的发展空间。

作者 | Kevin Casey

来源 | D1Net

人工智能和大数据之间的关系是双向的。可以肯定的是：人工智能的成功很大程度上取决于高质量的数据，同时，管理大数据并从中获取价值越来越多地依靠(诸如机器学习或自然语言处理等)人工智能技术来解决对人类而言难以负担的问题。

正如Anexinet公司高级数字策略师Glenn Gruber所述，这是一个“良性循环”。大数据中的“大”曾经被视为一种挑战而不是机遇，但随着企业开始推广机器学习和其他人工智能学科的应用，这种情况正在发生变化。

Gruber解释说，“如今，我们想要尽可能多的数据，这不仅是为了更好地洞察我们试图解决的业务问题，而且因为我们通过机器学习模型输入的数据越多，它们得到的结果就越好。”

当大数据遇到人工智能：跨行业的用例

以下深入地了解这个更广泛的循环中的一个部分：如何将人工智能当作处理大数据的强大杠杆的示例，无论是用于分析、改进的客户体验、新的效率还是其他目的。人们需要考虑以下人工智能和大数据应用的三个重要因素：

1从非标准化来源收集结构化数据

大数据面临很多的挑战，例如以一种可用的、具有成本效益的方式存储大数据。当涉及到非结构化数据时，其“可用”部分尤其棘手，根据研究机构的一些估计，非结构化数据占企业数据的大部分份额(70%或更多)。当人们谈论大数据将不可避免地继续增长时，非结构化数据是这种增长的主要驱动力。

将非结构化信息转换为可用格式对人类来说是一项极其繁琐的工作，特别是在重复(但完全必要)的后台 *** 作中。

Exasol公司首席技术官Mathias Golombek指出，发票处理是一个特定的示例，它阐明了使用人工智能从非结构化(或非标准)格式中自动提取结构化数据的广泛可能性。

Golombek说，“如何将人工智能应用于大数据的一个例子是训练一个模型，该模型从扫描的发票和提取的结构化数据的历史数据中学习：发票ID、到期日、收件人等。这一信息通常必须由工作人员来解释，因为每张发票看起来都有些不同，具有不同的名称或语言。但是，如果企业使用数千张发票的历史数据，则可以创建一个模型，通过扫描新发票即可自动为其提供结构化数据。”

使用人工智能从非结构化数据源自动提取结构化数据的这一相同原则可以广泛应用，不仅适用于财务或人力资源等运营领域，还适用于企业内容管理的广泛(通常是无意义的)类别。这对数据分析、机器人过程自动化(RPA)和其他形式的自动化以及其他目的都是一个潜在的好处。

ABBYY公司首席创新官Anthony Macciola说，“组织正在使用人工智能改变其最有价值的资产——内容。表示，高达90%的企业内容都是非结构化的数据，并且以每年高达65%的速度增长。大多数非结构化数据都无法分析，从而导致有价值的信息丢失和无法使用。借助人工智能，组织将非结构化数据转换为可在智能自动化系统中使用的可行信息。这使业务领导者可以更快地做出更好的业务决策。”

2简化复杂的官僚程序

在采用大数据的场合，就会有复杂性和官僚主义。例如医疗、保险和金融服务等领域，因此，这些行业正在越来越多地尝试采用潜在的方式来使用人工智能技术来减少繁文缛节，并在围绕法规遵从性和其他问题的复杂需求中改进流程和结果的潜在方法。

以下例举金融领域的一个更深层次的例子：

Persistent Systems公司数据、分析和人工智能/机器学习总经理Sameer Dixit说：“金融科技完美地说明了人工智能/机器学习如何改变银行机构向消费者提供金融服务的方式。银行的后台 *** 作涉及庞大而复杂的数据集，这些数据集需要大量人力。如果由机器人流程自动化(与人工智能/机器学习结合使用)进行处理，则可以在执行了解客户、验证客户身份和地址等任务时节省大量时间和成本。贷款本身也是劳动密集型的工作。借助人工智能/机器学习，降低成本，并以更具吸引力的利率向那些信用记录有限的人提供贷款，正在扩大一个以前服务不足的市场。”

AI Foundry公司产品管理总监Arvind Jagannath指出，抵押贷款行业是目前正在尝试人工智能的金融行业的特定子集。

Jagannath说，“人工智能正在以多种方式改善抵押贷款行业中的数据分析。”他列举了三个方面的例子，说明了人工智能可以在哪些方面为贷款人和客户带来好处：

吞吐量：Jagannath说，“目前业内平均完成抵押贷款的时间约为3至4周。使用人工智能来自动化‘关键路径流程’，只需几天就可以完成抵押贷款的处理。这种吞吐量的增加使购房者的购房体验更快、压力更小，并帮助银行和其他贷款人更快地处理更多贷款。”

分析速度：从某种意义上说，贷款处理是信息处理的另一种表达方式。人工智能可以加快速度，达到实时处理的程度。Jagannath说：“人工智能越来越多地被用于销售点，以提供更多的贷款人自助服务。”

处理和结果的准确性：Jagannath说，“使用人工智能和自动化，能够以高准确率处理抵押贷款。人类会感到疲劳，这种疲劳会导致出现错误，而人工智能技术可以全天候工作，而不会疲劳且精度很高。”

当然，金融、医疗和其他公司在削减繁文缛节的同时，将不得不与人工智能偏见作斗争。

3 更好地利用视频和语音资源

当想到在各种组织中可以产生固有的“大”数据的媒体格式时，通常会想到语音和视频。两者都提供了人工智能如何应用于改善企业如何管理和从现有媒体资产中获取价值的实例，或者如何改善未来使用这些格式和其他格式的示例。

Anexinet公司高级分析总监Brian Atkiss指出，像自然语言处理(NLP)这样的人工智能学科在企业如何使用他们的语音数据、从语音分析到语音到文本转录方面创造了相当多的新改进。

此外，人工智能可以解决与基础数据相关的挑战。例如，可能为了质量保证和培训而录制视频或音频，实际上就是在使大数据变得更大。

Atkiss解释说，“在以往，出于人工审查和合规的原因，企业会存储通话记录数据，有时会长达7年甚至更长时间。这些数据以单声道格式记录，并经过高度压缩以减小文件规模和存储成本。随着语音到文本算法的发展，这些通话记录数据突然变成了有用数据的宝库，企业可以利用这些有用数据来衡量客户体验并改善运营绩效。”

人工智能驱动的新分析机会也彻底改变了与通话记录和其他语音数据相关的存储挑战。

Atkiss表示，“更高质量的音频文件从语音到文本的算法产生了更好的准确性，因此企业需要使用未压缩的音频，这可能会使存储成本更高。在此可以采用人工智能，这是因为它具有自动转录语音记录的功能。”

Atkiss说，“这些录音文件现在可以实时或接近实时地转录，生成的录音提供通话记录，可以用于高级分析。这些文本记录可以存储，而高质量的未压缩音频文件现在可以删除，不需要存储。企业提供实时访问这些数据的能力也要求在数据存储和处理方面取得进展。”

视频文件的处理可以带来类似的机遇和挑战。人工智能现在使企业能够更好地管理和发现企业视频资产的价值。

IBM Watson企业视频产品高级总监Chris Zaloumis说：“人工智能技术使企业能够通过高级元数据丰富功能和以前未开发的见解来理解和优化视频内容库。从提高参与度和增加可发现性到自动化隐藏式字幕和进一步提高包容性，人工智能为企业提供了必要的工具，使其能够在真正的全球、始终在线的环境中运营。”

语音对文本技术在提高视频应用程序的可访问性和包容性方面，包括在实时订阅源中，可以起到巨大的作用。Zaloumis说，“像人工智能驱动的实时和按需自动字幕显示，这样的实用应用程序为听力障碍员工和聋哑人弥合通信的鸿沟提供帮助。”

以上就是关于大数据分析技术生态圈一览全部的内容，包括:大数据分析技术生态圈一览、滴普科技：为什么越来越多的企业会选择“湖仓一体”、大数据和人工智能真实世界里的3个用例等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10085456.html

大数据分析技术生态圈一览

发表评论

评论列表（0条）