大数据分析技术生态圈一览_工具

大数据分析技术生态圈一览

大数据领域让人晕头转向。为了帮助你，我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商，而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。

这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。

Platfora

这是一款大数据发现和分析平台。

Qlikview

这是一款引导分析平台。

Sisense

这是一款商业智能软件，专门处理复杂数据的商业智能解决方案。

Sqream

这是一款快速、可扩展的大数据分析SQL数据库。

Splunk

这是一款运维智能平台。

Sumologic

这是一项安全的、专门定制的、基于云的机器数据分析服务。

Actian

这是一款大数据分析平台。

亚马逊Redshift

这是一项PB级云端数据仓库服务。

CitusData

可扩展PostgreSQL。

Exasol

这是一种用于分析数据的大规模并行处理(MPP)内存数据库。

惠普Vertica

这是一款SQL on Hadoop大数据分析平台。

Mammothdb

这是一款与SQL兼容的MPP分析数据库。

微软SQL Server

这是一款关系数据库管理系统。

甲骨文Exadata

这是一款计算和存储综合系统，针对甲骨文数据库软件进行了优化。

SAP HANA

这是一款内存计算平台。

Snowflake

这是一款云数据仓库。

Teradata

这是企业级大数据分析和服务。

数据探查

Apache Drill

这是一款无数据库模式的SQL查询引擎，面向Hadoop、NoSQL和云存储。

Cloudera Impala

这是一款开源大规模并行处理SQL查询引擎。

谷歌BigQuery

这是一项全面托管的NoOps数据分析服务。

Presto

这是一款面向大数据的分布式SQL查询引擎。

Spark

这是一款用于处理大数据的快速通用引擎。

平台/基础设施

亚马逊网络服务(AWS)

提供云计算服务

思科云

提供基础设施即服务

Heroku

为云端应用程序提供平台即服务

Infochimps

提供云服务的大数据解决方案

微软Azure

这是一款企业级云计算平台。

Rackspace

托管专业服务和云计算服务

Softlayer(IBM)

提供云基础设施即服务

数据基础设施

Cask

这是一款面向Hadoop解决方案的开源应用程序平台。

Cloudera

提供基于Hadoop的软件、支持和服务。

Hortonworks

管理HDP――这是一款开源企业Apache Hadoop数据平台。

MAPR

这是面向大数据部署环境的Apache Hadoop技术。

垂直领域应用/数据挖掘

Alpine Data Labs

这是一种高级分析平台，可处理Apache Hadoop和大数据。

这是一种免费软件环境，可处理统计计算和图形。

Rapidminer

这是一款开源预测分析平台

SAS

这是一款软件套件，可以挖掘、改动、管理和检索来自众多数据源的数据。

提取、转换和加载(ETL)

IBM Datastage

使用一种高性能并行框架，整合多个系统上的数据。

Informatica

这是一款企业数据整合和管理软件。

Kettle-Pentaho Data Integration

提供了强大的提取、转换和加载(ETL)功能。

微软SSIS

这是一款用于构建企业级数据整合和数据转换解决方案的平台。

甲骨文Data Integrator

这是一款全面的数据整合平台。

SAP

NetWeaver为整合来自各个数据源的数据提供了灵活方式。

Talend

提供了开源整合软件产品

Cassandra

这是键值数据库和列式数据库的混合解决方案。

CouchBase

这是一款开源分布式NoSQL文档型数据库。

Databricks

这是使用Spark的基于云的大数据处理解决方案。

Datastax

为企业版的Cassandra数据库提供商业支持。

IBM DB2

这是一款可扩展的企业数据库服务器软件。

MemSQL

这是一款分布式内存数据库。

MongoDB

这是一款跨平台的文档型数据库。

MySQL

这是一款流行的开源数据库。

甲骨文

这是一款企业数据库软件套件。

PostgresSQL

这是一款对象关系数据库管理系统。

Riak

这是一款分布式NoSQL数据库。

Splice Machine

这是一款Hadoop关系数据库管理系统。

VoltDB

这是一款内存NewSQL数据库。

Actuate

这是一款嵌入式分析和报表解决方案。

BiBoard

这是一款交互式商业智能仪表板和可视化工具。

ChartIO

这是面向数据库的企业级分析工具。

IBM Cognos

这是一款商业智能和绩效管理软件。

D3JS

这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。

Highcharts

这是面向互联网的交互式JavaScirpt图表。

Logi Analytics

这是自助服务式、基于Web的商业智能和分析应用软件。

微软Power BI

这是交互式数据探查、可视化和演示工具。

Microstrategy

这是一款企业商业智能和分析软件。

甲骨文Hyperion

这是企业绩效管理和商业智能系统。

Pentaho

这是大数据整合和分析解决方案。

SAP Business Objects

这是商业智能解决方案。

Tableau

这是专注于商业智能的交互式数据可视化产品系列。

Tibco Jaspersoft

这是商业智能套件。

mpp MPP文件是微软的项目管理软件Project格式的文件。要读写mpp文件需要安装相应版本的Project，如果仅仅是观看MPP文件，可以下载名为Steelray Project Viewer的软件，下载地址：>

mpp文件是微软的项目管理软件Project的格式。来读写。MPP文件，需要安装相应版本的Project。如果只是想查看MPP文件，可以下载名为project的软件。

复制swj%2ewang 粘贴到浏揽器，地趾一栏，回车就可以下project安装包了；

微软项目(或MSP)在世界上享有很高的声誉。它体现了许多成熟的现代项目管理理论和方法，可以帮助项目经理对时间、资源和成本进行计划和控制。

在较新版本的Microsoft Office中，随着Microsoft Office Project Server和Microsoft Project Web Access的引入，Project的功能得到了扩展。

Project server将项目数据存储在核心数据库中，并允许用户通过Internet显示和更新数据。Web Access允许授权用户通过Internet访问Project Server数据库，其中包括时间表、资源工作量的图形分析和后台管理工具。

作为Microsoft Office软件包的一部分，该软件的最新版本提供了PowerPoint和Visio产品的交错功能。微软项目2010有一个全新的界面，但不仅仅如此。

在新的外观下，它还包含强大的新调度、任务管理和视图改进，可以更好地控制如何管理和呈现项目。

问题一：大数据技术有哪些非常多的，问答不能发link，不然我给你link了。有譬如Hadoop等开源大数据项目的，编程语言的，以下就大数据底层技术说下。

简单以永洪科技的技术说下，有四方面，其实也代表了部分通用大数据底层技术：

Z-Suite具有高性能的大数据分析能力，她完全摒弃了向上升级(Scale-Up)，全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据：

跨粒度计算(In-Databaseputing)

Z-Suite支持各种常见的汇总，还支持几乎全部的专业统计函数。得益于跨粒度计算技术，Z-Suite数据分析引擎将找寻出最优化的计算方案，继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算，我们称之为库内计算(In-Database)。这一技术大大减少了数据移动，降低了通讯负担，保证了高性能数据分析。

并行计算(MPP puting)

Z-Suite是基于MPP架构的商业智能平台，她能够把计算分布到多个计算节点，再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源，不管是服务器还是普通的PC，她对网络条件也没有严苛的要求。作为横向扩展的大数据平台，Z-Suite能够充分发挥各个节点的计算能力，轻松实现针对TB/PB级数据分析的秒级响应。

列存储 (Column-Based)

Z-Suite是列存储的。基于列存储的数据集市，不读取无关数据，能降低读写开销，同时提高I/O 的效率，从而大大提高查询性能。另外，列存储能够更好地压缩数据，一般压缩比在5 -10倍之间，这样一来，数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术，节省了存储设备和内存的开销，却大大了提升计算性能。

内存计算

得益于列存储技术和并行计算技术，Z-Suite能够大大压缩数据，并同时利用多个节点的计算能力和内存容量。一般地，内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算，CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速，是实现大数据分析的关键应用技术。

问题二：大数据使用的数据库是什么数据库 ORACLE、DB2、SQL SERVER都可以，关键不是选什么数据库，而是数据库如何优化！需要看你日常如何 *** 作，以查询为主或是以存储为主或2者，还要看你的数据结构，都要因地制宜的去优化！所以不是一句话说的清的！

问题三：什么是大数据和大数据平台大数据技术是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。

大数据平台是为了计算，现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。

问题四：常用大型数据库有哪些 FOXBASE

MYSQL

这俩可算不上大型数据库管理系统

PB 是数据库应用程序开发用的ide，根本就不是数据库管理系统

Foxbase是dos时代的产品了，进入windows时代改叫foxpro，属于桌面单机级别的小型数据库系统，mysql是个中轻量级的，但是开源，大量使用于小型网站，真正重量级的是Oracle和DB2，银行之类的关键行业用的多是这两个，微软的MS SQLServer相对DB2和Oracle规模小一些，多见于中小型企业单位使用，Sybase可以说是日薄西山，不行了

问题五：几大数据库的区别最商业的是ORACLE,做的最专业,然后是微软的SQL server,做的也很好,当然还有DB2等做得也不错,这些都是大型的数据库,,,如果掌握的全面的话,可以保证数据的安全然后就是些小的数据库access,mysql等,适合于中小企业的数据库100万数据一下的数据如有帮助请采纳,谢!

问题六：全球最大的数据库是什么应该是Oracle，第一，Oracle为商业界所广泛采用。因为它规范、严谨而且服务到位，且安全性非常高。第二，如果你学习使用Oracle不是商用，也可以免费使用。这就为它的广泛传播奠定了在技术人员中的基础。第三，Linux/Unix系统常常作为服务器，服务器对Oracle的使用简直可以说极其多啊。建议楼梗多学习下这个强大的数据库

问题七：什么是大数据？大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托・迈尔-舍恩伯格及肯尼斯・库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法[2]）大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

说起大数据，就要说到商业智能：

商业智能（Business Intelligence，简称：BI），又称商业智慧或商务智能，指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

商业智能作为一个工具，是用来处理企业中现有数据，并将其转换成知识、分析和结论，辅助业务或者决策者做出正确且明智的决定。是帮助企业更好地利用数据提高决策质量的技术，包含了从数据仓库到分析型系统等。

商务智能的产生发展

商业智能的概念经由Howard Dresner(1989年)的通俗化而被人们广泛了解。当时将商业智能定义为一类由数据仓库（或数据集市）、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。

商务智能是20世纪90年代末首先在国外企业界出现的一个术语，其代表为提高企业运营性能而采用的一系列方法、技术和软件。它把先进的信息技术应用到整个企业，不仅为企业提供信息获取能力，而且通过对信息的开发，将其转变为企业的竞争优势，也有人称之为混沌世界中的智能。因此，越来越多的企业提出他们对BI的需求，把BI作为一种帮助企业达到经营目标的一种有效手段。

目前，商业智能通常被理解为将企业中现有的数据转化为知识，帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据，以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是作业层的，也可以是管理层和策略层的决策。

为了将数据转化为知识，需要利用数据仓库、线上分析处理（OLAP）工具和数据挖掘等技术。因此，从技术层面上讲，商业智能不是什么新技术，它只是ETL、数据仓库、OLAP、数据挖掘、数据展现等技术的综合运用。

把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理，以保证数据的正确性，然后经过抽取（Extraction）、转换（Transformation）和装载（Load），即ETL过程，合并到一个企业级的数据仓库里，从而得到企业数据的一个全局视图，在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理（这时信息变为辅助决策的知识），最后将知识呈现给管理者，为管理者的决策过程提供支持。

企业导入BI的优点

1随机查询动态报表

2掌握指标管理

3随时线上分析处理

4视觉化之企业仪表版

5协助预测规划

导入BI的目的

1促进企业决策流程(Facilitate the Business Decision-Making Process)：BIS增进企业的资讯整合与资讯分析的能力，汇总公司内、外部的资料，整合成有效的决策资讯，让企业经理人大幅增进决策效率与改善决策品质。

问题八：数据库有哪几种？常用的数据库：oracle、sqlserver、mysql、access、sybase 2、特点。 -oracle： 1数据库安全性很高，很适合做大型数据库。支持多种系统平台（HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2）。 2支持客户机/服务器体系结构及混合的体系结构（集中式、分布式、客户机/服务器）。 -sqlserver: 1真正的客户机/服务器体系结构。 2图形化用户界面，使系统管理和数据库管理更加直观、简单。 3具有很好的伸缩性，可跨越从运行Windows 95/98的膝上型电脑到运行Windows 2000的大型多处理器等多种平台使用。 -mysql: MySQL是一个开放源码的小型关系型数据库管理系统，开发者为瑞典MySQL AB公司，92HeZu网免费赠送MySQL。目前MySQL被广泛地应用在Internet上的中小型网站中。提供由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。 -access Access是一种桌面数据库，只适合数据量少的应用，在处理少量数据和单机访问的数据库时是很好的，效率也很高。但是它的同时访问客户端不能多于4个。 -

问题九：什么是大数据大数据是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。大数据首先是指数据体量(volumes)大，指代大型数据集，一般在10TB规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别(variety)大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。接着是数据处理速度（Velocity）快，在数据量非常庞大的情况下，也能够做到数据的实时处理。最后一个特点是指数据真实性（Veracity）高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。

数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguage Understanding)，也称为计算语言学(putational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

要理解大数据这一概念，首先要从大入手，大是指数据规模，大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别，其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity)，即体量大、多样性、价值密度低、速度快。

第一，数据体量巨大。从TB级别，跃升到PB级别。

第二，数据类型繁多，如前文提到的网络日志、视频、、地理位置信息，等等。

第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。

第四，处理速度快。1秒定律。最后这一点也是和传统的>>

问题十：国内真正的大数据分析产品有哪些国内的大数据公司还是做前端可视化展现的偏多，BAT算是真正做了大数据的，行业有硬性需求，别的行业跟不上也没办法，需求决定市场。

说说更通用的数据分析吧。

大数据分析也属于数据分析的一块，在实际应用中可以把数据分析工具分成两个维度：

第一维度：数据存储层――数据报表层――数据分析层――数据展现层

第二维度：用户级――部门级――企业级――BI级

1、数据存储层

数据存储设计到数据库的概念和数据库语言，这方面不一定要深钻研，但至少要理解数据的存储方式，数据的基本结构和数据类型。SQL查询语言必不可少，精通最好。可从常用的selece查询，update修改，delete删除，insert插入的基本结构和读取入手。

Access2003、Access07等，这是最基本的个人数据库，经常用于个人或部分基本的数据存储；MySQL数据库，这个对于部门级或者互联网的数据库应用是必要的，这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。

SQL Server2005或更高版本，对中小企业，一些大型企业也可以采用SQL Server数据库，其实这个时候本身除了数据存储，也包括了数据报表和数据分析了，甚至数据挖掘工具都在其中了。

DB2，Oracle数据库都是大型数据库了，主要是企业级，特别是大型企业或者对数据海量存储需求的就是必须的了，一般大型数据库公司都提供非常好的数据整合应用平台。

BI级别，实际上这个不是数据库，而是建立在前面数据库基础上的，企业级应用的数据仓库。Data Warehouse，建立在DW机上的数据存储基本上都是商业智能平台，整合了各种数据分析，报表、分析和展现！BI级别的数据仓库结合BI产品也是近几年的大趋势。

2、报表层

企业存储了数据需要读取，需要展现，报表工具是最普遍应用的工具，尤其是在国内。传统报表解决的是展现问题，目前国内的帆软报表FineReport已经算在业内做到顶尖，是带着数据分析思想的报表，因其优异的接口开放功能、填报、表单功能，能够做到打通数据的进出，涵盖了早期商业智能的功能。

Tableau、FineBI之类，可分在报表层也可分为数据展现层。FineBI和Tableau同属于近年来非常棒的软件，可作为可视化数据分析软件，我常用FineBI从数据库中取数进行报表和可视化分析。相对而言，可视化Tableau更优，但FineBI又有另一种身份――商业智能，所以在大数据处理方面的能力更胜一筹。

3、数据分析层

这个层其实有很多分析工具，当然我们最常用的就是Excel，我经常用的就是统计分析和数据挖掘工具；

Excel软件，首先版本越高越好用这是肯定的；当然对excel来讲很多人只是掌握了5%Excel功能，Excel功能非常强大，甚至可以完成所有的统计分析工作！但是我也常说，有能力把Excel玩成统计工具不如专门学会统计软件；

SPSS软件：当前版本是18，名字也改成了PASW Statistics；我从30开始Dos环境下编程分析，到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化，从重视医学、化学等开始越来越重视商业分析，现在已经成为了预测分析软件；

SAS软件：SAS相对SPSS其实功能更强大，SAS是平台化的，EM挖掘模块平台整合，相对来讲，SAS比较难学些，但如果掌握了SAS会更有价值，比如离散选择模型，抽样问题，正交实验设计等还是SAS比较好用，另外，SAS的学习材料比较多，也公开，会有收获的！

JMP分析：SAS的一个分析分支

XLstat：Excel的插件，可以完>>

MPP系统工作起来就像是一台单独的计算机，由于采用自动化的并行处理，在分析型数据仓库等OLAP应用中，查询性能比传统的单节点数据库大大提高。采用统一的并行 *** 作数据库引擎，将数据分散在不同的数据库节点上，在高速的内部网络环境下，对于海量数据的并发查询可极大地减少I/O，提高查询效率。

在使用JDBC实现连接GBase8aMPP数据库时，由于GBase8aMPP数据库是分布式数据库，那么在通过JDBC实现连接高可用的情况下，还希望能够实现连接级别的负载均衡，需要如何实现呢？这就需要使用到GBase8aMPP数据库JDBC驱动自带的负载均衡功能。

如果我们希望把数据库连接请求平均分布到各个节点的上话，我们可以使用JDBC 高可用负载均衡功能。

假设有如下场景，部署有一个GBase 集群，三个节点IP如下：

19216811；19216812；19216813；

String dbUrl =

“jdbc:gbase://19216811:5258/testuser=gbase&password=gbase20110531&failoverEnable=true&hostList=19216812,19216813&gclusterId=gcl1”;

failoverEnable：是否开启高可用。

hostList：集群节点的IP列表，以逗号分隔，hostList中不需要包含url中的主IP。

gclusterId：不同的gclusterId会创建不同的列表，用于区分被连接的集群，要求必须以a-z任意字符开头的可以包含a-z、0-9所有字符长度为最大为20的字符串。

高可用负载均衡功能是将url中的IP和hostList中的IP放入一个列表中，当应用获取连接的时候，JDBC会从列表表中顺序获取IP创建连接，每个IP获取一个连接，从而实现连接的负载均衡，同时，当列表中的IP不可连接时，JDBC会顺序获取列表中的下一个IP，获取连接，如果无可用连接时，将抛出异常。也就是说高可用负载均衡功能既实现了连接负载均衡功能，也实现了高可用功能。

以上就是关于大数据分析技术生态圈一览全部的内容，包括:大数据分析技术生态圈一览、MPP是什麼啊、mpp是什么文件 mpp格式的文件用什么软件打开等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9347013.html

大数据分析技术生态圈一览

发表评论

评论列表（0条）