MapReduce: 是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,每个阶段都是用键值对(key/value)作为输入和输出,非常适合数据密集型计算。Map/Reduce通过把对数据集的大规模 *** 作分发给网络上的每个节点实现可靠性;每个节点会周期性地返回它所完成的工作和最新的状态。如果一个节点在设定的时间内没有进行心跳上报,主节点(可以理解为主服务器)就会认为这个节点down掉了,此时就会把分配给这个节点的数据发到别的节点上运算,这样可以保证系统的高可用性和稳定性。因此它是一个很好的计算框架。
TEZ:
是基于Hadoop YARN之上的DAG(有向无环图,Directed Acyclic Graph)计算框架。核心思想是将Map和Reduce两个 *** 作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等。这样,这些分解后的元 *** 作可以任意灵活组合,产生新的 *** 作,这些 *** 作经过一些控制程序组装后,可形成一个大的DAG作业,从而可以减少Map/Reduce之间的文件存储,同时合理组合其子过程,也可以减少任务的运行时间。
两者比较:
MR计算,会对磁盘进行多次的读写 *** 作,这样启动多轮job的代价略有些大,不仅占用资源,更耗费大量的时间,
而采用TEZ计算框架,就会生成一个简洁的DAG作业,算子跑完不退出,下轮继续使用上一轮的算子,这样大大减少磁盘IO *** 作,从而计算速度更快。 TEZ比MR至少快5倍
相关资料链接:网页链接
步骤Hive提供了jdbc驱动,使得我们可以连接Hive并进行一些类关系型数据库的sql语句查询等 *** 作,首先我们需要将这些驱动拷贝到报表工程下面,然后再建立连接,最后通过连接进行数据查询。
拷贝jar包到FR工程
将hadoop里的hadoop-commonjar拷贝至报表工程appname/WEB-INF/lib下;
将hive里的hive-execjar、hive-jdbcjar、hive-metastorejar、hive-servicejar、libfb303jar、log4jjar、slf4j-apijar、slf4j-log4j12jar拷贝至报表工程appname/WEB-INF/lib下。
配置数据连接
启动设计器,打开服务器>定义数据连接,新建JDBC连接。
在Hive 0110版本之前,只有HiveServer服务可用,在程序 *** 作Hive之前,必须在Hive安装的服务器上打开HiveServer服务。而HiveServer本身存在很多问题(比如:安全性、并发性等);针对这些问题,Hive0110版本提供了一个全新的服务:HiveServer2,这个很好的解决HiveServer存在的安全性、并发性等问题,所以下面我们分别介绍HiveServer和HiveServer2配置数据连接的方式。
HiveServer
数据库驱动:orgapachehadoophivejdbcHiveDriver;
URL:jdbc:hive://localhost:10000/default
注:hive服务默认端口为10000,根据实际情况修改端口;另外目前只支持默认数据库名default,所有的Hive都支持。
测试连接,提示连接成功即可。
4
数据库驱动:orgapachehivejdbcHiveDriver;
URL:jdbc:hive2://localhost:10000/default
注:该连接方式只支持Hive0110及之后版本。服务器地址:skgame(需要正版)
服务器地址:mineplexcom(需要正版)
Hypixel大大服务器地址:mchypixelnet(需要正版)
服务器地址:euhivemccom(需要正版)
服务器地址:skywarsco(需要正版)
服务器地址:thenexusmcnet(需要正版)
服务器地址:skgame(需要正版)
服务器地址:mineplexnet(需要正版)
服务器地址:euhivemccom(需要正版)
服务器地址:mineplexnet(需要正版)
Hypixel大大的服务器:mchypixelnet(需要正版)
服务器地址:mchypixelnet(需要正版)rsmvnet(需要正版)
服务器地址:euhivemccom(需要正版
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)