类似于易观智库的行业数据分析平台都有哪些_框架

我自己整理了一部分常用的数据获取网站，希望对大家有帮助。

1 199IT-中文咨询互联网中心

2 蝉大师-APP大数据分析和分发渠道优化平台

3 艾瑞网-互联网数据资讯聚合平台

4 百度指数

5 阿里指数

6 梅花网

7 DCCI互联网数据中心

8 Alexa

9 大数据导航---好东西，建议大家永久保存

10 中国软件资讯网

11 猎豹全球智库

12 IT桔子-IT互联网公司产品数据库及商业信息服务

13 界面

14 中商产业研究院

15 中商情报网

16 数据猿

17 犀牛之星

18 水滴数据

19 ASO100-专业推广移动数据平台ASO114-APP推广平台

20 移动观象台

21 极光数据服务

22 36大数据

23 因果树

24 Quest Mobile

25 appannie

26 TBI腾讯浏览指数

27 微指数

28 国家数据

29 Our World In Data

30 中国报告大厅

31 谷歌趋势

32 友盟+

33 琥珀谷

34 新芽

35 国家统计局

36 中国互联网络信息中心

数据分析平台通常有如下：

1国家数据： >

2阿里指数： >

3微指数： >

4微信指数：微信里面搜一搜“微信指数”就能直接找到。立足于微信生态，依托海量用户数据，微信指数具有天生优势。

5淘宝生意参谋： >

6搜狗指数： >

7头条指数： >

8360指数： >

9飞瓜数据： >

10七麦数据： >

11百度指数： >

12京东商智： >

神图数据助手平台是一款提供数据采集、清洗、整理和分析等服务的数据处理工具，可以帮助用户快速从互联网和其他数据源中抓取和处理大量数据，用于商业和科研等方面。

根据该平台官方资料显示，神图数据助手平台提供了多种数据采集和处理功能，包括爬虫采集、文本挖掘、数据清洗和可视化展示等。用户只需要提供相关的数据源和关键词等信息，即可通过该平台获取大量的数据，并进行深度分析和处理。

综合来看，神图数据助手平台提供了较为全面和专业的数据处理工具，适合需要处理大量数据的企业和科研机构使用。但同时也需要注意，该平台需要一定的技术门槛和基础知识才能够充分发挥其优势，对于普通用户可能不太友好。此外，使用该平台需要遵守相关法律法规，避免侵犯他人的隐私和知识产权等问题。

一直想整理一下这块内容，既然是漫谈，就想起什么说什么吧。我一直是在互联网行业，就以互联网行业来说。

先大概列一下互联网行业数据仓库、数据平台的用途：

整合公司所有业务数据，建立统一的数据中心；

提供各种报表，有给高层的，有给各个业务的；

为网站运营提供运营上的数据支持，就是通过数据，让运营及时了解网站和产品的运营效果；

为各个业务提供线上或线下的数据支持，成为公司统一的数据交换与提供平台；

分析用户行为数据，通过数据挖掘来降低投入成本，提高投入效果；比如广告定向精准投放、用户个性化推荐等；

开发数据产品，直接或间接为公司盈利；

建设开放数据平台，开放公司数据；

。。。。。。

上面列出的内容看上去和传统行业数据仓库用途差不多，并且都要求数据仓库/数据平台有很好的稳定性、可靠性；但在互联网行业，除了数据量大之外，越来越多的业务要求时效性，甚至很多是要求实时的，另外，互联网行业的业务变化非常快，不可能像传统行业一样，可以使用自顶向下的方法建立数据仓库，一劳永逸，它要求新的业务很快能融入数据仓库中来，老的下线的业务，能很方便的从现有的数据仓库中下线；

其实，互联网行业的数据仓库就是所谓的敏捷数据仓库，不但要求能快速的响应数据，也要求能快速的响应业务；

建设敏捷数据仓库，除了对架构技术上的要求之外，还有一个很重要的方面，就是数据建模，如果一上来就想着建立一套能兼容所有数据和业务的数据模型，那就又回到传统数据仓库的建设上了，很难满足对业务变化的快速响应。应对这种情况，一般是先将核心的持久化的业务进行深度建模（比如：基于网站日志建立的网站统计分析模型和用户浏览轨迹模型；基于公司核心用户数据建立的用户模型），其它的业务一般都采用维度+宽表的方式来建立数据模型。这块是后话。

整体架构下面的图是我们目前使用的数据平台架构图，其实大多公司应该都差不多：

逻辑上，一般都有数据采集层、数据存储与分析层、数据共享层、数据应用层。可能叫法有所不同，本质上的角色都大同小异。

我们从下往上看：

数据采集数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上，期间有可能会做一些简单的清洗。

数据源的种类比较多：

网站日志：

作为互联网行业，网站日志占的份额最大，网站日志存储在多台网站日志服务器上，

一般是在每台网站日志服务器上部署flume agent，实时的收集网站日志并存储到HDFS上；

业务数据库：

业务数据库的种类也是多种多样，有Mysql、Oracle、SqlServer等，这时候，我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具，Sqoop是一种，但是Sqoop太过繁重，而且不管数据量大小，都需要启动MapReduce来执行，而且需要Hadoop集群的每台机器都能访问业务数据库；应对此场景，淘宝开源的DataX，是一个很好的解决方案（可参考文章《异构数据源海量数据交换工具-Taobao DataX 下载和使用》），有资源的话，可以基于DataX之上做二次开发，就能非常好的解决，我们目前使用的DataHub也是。

当然，Flume通过配置与开发，也可以实时的从数据库中同步数据到HDFS。

来自于Ftp/>

有可能一些合作伙伴提供的数据，需要通过Ftp/>

其他数据源：

比如一些手工录入的数据，只需要提供一个接口或小程序，即可完成；

数据存储与分析毋庸置疑，HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

离线数据分析与计算，也就是对实时性要求不高的部分，在我看来，Hive还是首当其冲的选择，丰富的数据类型、内置函数；压缩比非常高的ORC文件存储格式；非常方便的SQL支持，使得Hive在基于结构化数据上的统计分析远远比MapReduce要高效的多，一句SQL可以完成的需求，开发MR可能需要上百行代码；

当然，使用Hadoop框架自然而然也提供了MapReduce接口，如果真的很乐意开发Java，或者对SQL不熟，那么也可以使用MapReduce来做分析与计算；Spark是这两年非常火的，经过实践，它的性能的确比MapReduce要好很多，而且和Hive、Yarn结合的越来越好，因此，必须支持使用Spark和SparkSQL来做分析和计算。因为已经有Hadoop Yarn，使用Spark其实是非常容易的，不用单独部署Spark集群，关于Spark On Yarn的相关文章，可参考：《Spark On Yarn系列文章》

实时计算部分，后面单独说。

数据共享这里的数据共享，其实指的是前面数据分析与计算后的结果存放的地方，其实就是关系型数据库和NOSQL数据库；

前面使用Hive、MR、Spark、SparkSQL分析和计算的结果，还是在HDFS上，但大多业务和应用不可能直接从HDFS上获取数据，那么就需要一个数据共享的地方，使得各业务和产品能方便的获取数据；和数据采集层到HDFS刚好相反，这里需要一个从HDFS将数据同步至其他目标数据源的工具，同样，DataX也可以满足。

另外，一些实时计算的结果数据可能由实时计算模块直接写入数据共享。

数据应用

业务产品

业务产品所使用的数据，已经存在于数据共享层，他们直接从数据共享层访问即可；

报表

同业务产品，报表所使用的数据，一般也是已经统计汇总好的，存放于数据共享层；

即席查询

即席查询的用户有很多，有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大，他们都有即席查询数据的需求；

这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求，需要从数据存储层直接查询。

即席查询一般是通过SQL完成，最大的难度在于响应速度上，使用Hive有点慢，目前我的解决方案是SparkSQL，它的响应速度较Hive快很多，而且能很好的与Hive兼容。

当然，你也可以使用Impala，如果不在乎平台中再多一个框架的话。

OLAP

目前，很多的OLAP工具不能很好的支持从HDFS上直接获取数据，都是通过将需要的数据同步到关系型数据库中做OLAP，但如果数据量巨大的话，关系型数据库显然不行；

这时候，需要做相应的开发，从HDFS或者HBase中获取数据，完成OLAP的功能；

比如：根据用户在界面上选择的不定的维度和指标，通过开发接口，从HBase中获取数据来展示。

其它数据接口

这种接口有通用的，有定制的。比如：一个从Redis中获取用户属性的接口是通用的，所有的业务都可以调用这个接口来获取用户属性。

实时计算现在业务对数据仓库实时性的需求越来越多，比如：实时的了解网站的整体流量；实时的获取一个广告的曝光和点击；在海量数据下，依靠传统数据库和传统实现方法基本完成不了，需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架；Storm在这块是比较成熟了，但我选择Spark Streaming，原因很简单，不想多引入一个框架到平台中，另外，Spark Streaming比Storm延时性高那么一点点，那对于我们的需要可以忽略。

我们目前使用Spark Streaming实现了实时的网站流量统计、实时的广告效果统计两块功能。

做法也很简单，由Flume在前端日志服务器上收集网站日志和广告日志，实时的发送给Spark Streaming，由Spark Streaming完成统计，将数据存储至Redis，业务通过访问Redis实时获取。

任务调度与监控在数据仓库/数据平台中，有各种各样非常多的程序和任务，比如：数据采集任务、数据同步任务、数据分析任务等；

这些任务除了定时调度，还存在非常复杂的任务依赖关系，比如：数据分析任务必须等相应的数据采集任务完成后才能开始；数据同步任务需要等数据分析任务完成后才能开始；这就需要一个非常完善的任务调度与监控系统，它作为数据仓库/数据平台的中枢，负责调度和监控所有任务的分配与运行。

前面有写过文章，《大数据平台中的任务调度与监控》,这里不再累赘。

总结在我看来架构并不是技术越多越新越好，而是在可以满足需求的情况下，越简单越稳定越好。目前在我们的数据平台中，开发更多的是关注业务，而不是技术，他们把业务和需求搞清楚了，基本上只需要做简单的SQL开发，然后配置到调度系统就可以了，如果任务异常，会收到告警。这样，可以使更多的资源专注于业务之上。

如果自己不会用python写代码采集数据的话。国内在采集领域领先的肯定就是八爪鱼了，简单易懂不用写代码，采集快速，支持云采集，详情可以上官网研究研究。

另外如果是有国外的采集需求的话，可以使用Octoparse，和八爪鱼是双胞胎兄弟，采集国外的网站更加快速。

UCI：经典的机器学习、数据挖掘数据集，包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老，但依然活跃在科研学者的视线中。

国家数据：数据来源中华人民共和国国家统计局，包含了我国经济民生等多个方面的数据，并且在月度、季度、年度都有覆盖，全面又权威。

亚马逊：来自亚马逊的跨科学云数据平台，包含化学、生物、经济等多个领域的数据集。

figshare：研究成果共享平台，在这里可以找到来自世界的大牛们的研究成果分享，获取其中的研究数据。

github：一个非常全面的数据获取渠道，包含各个细分领域的数据库资源，自然科学和社会科学的覆盖都很全面，适合做研究和数据分析的人员。

以上就是关于类似于易观智库的行业数据分析平台都有哪些全部的内容，包括:类似于易观智库的行业数据分析平台都有哪些、数据分析平台有哪些、神图数据助手平台怎么样等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9331283.html

类似于易观智库的行业数据分析平台都有哪些

发表评论

评论列表（0条）