企业相关服务器资源配置:平均600台active的节点,
每个节点可用的内存在200G左右,可用的memory total:116T
1、set hiveexecparallel=true;
开启job的并行:基本每个hql脚本都会开启这个参数,默认并行度为8,
在集群资源充足的情况下,可以提高job并行的数量:
set hiveexecparallelthreadnumber=16; (企业生产中我是很少用到这个的,都是用的默认值,因为太消耗资源怕影响别的任务,搞不好会被运维抓住,邮件通报批评!当然使用时还是看具体情况吧!)
因为需求中一张表的job的数量每次基本都在20个以上,在相关维度多,涉及到的字段逻辑复杂的情况下,
一张表中job的数量会超过100个,之前做的一个需求中insert插入的脚本中job的数量达到了169个,
在测试环境运行的时候只用了一个小时就跑完了,数据量在一亿条左右,大概有一百多G。
2、set hivemapaggr=true;
在map端中会做部分聚集 *** 作,效率更高但需要更多的内存,可以根据自己企业的资源情况来设置,
如果我的脚本涉及到的数据量不大的话,我一般不会开启这个参数。
3、set hiveinputformat=orgapachehadoophiveqlioCombineHiveInputFormat;
hive05开始的默认值,执行map前进行小文件合并,在一个job中生成的map的数量很多的时候,
和第二个参数一起开启配合使用,在实际生产中多次验证发现可以减少一倍以上的map数量。
在开启前我的一个job的map数量有577个,开启后的map的数量只有196个,极大提高程序的运行效率。
4、set mapredmaxsplitsize=256000000;
每个Map(一个切片的)最大输入大小(这个值决定了合并后文件的数量),和第3个参数配合一起使用
默认值也是256000000,
mapredminsplitsize默认值是10000000
dfsblocksize默认是128M,这个参数通过hive来更改是没有实际用的,只能通过hdfs来修改
实际在hive中,并不是split的大小要小于等于blocksize,而是可以远大于blocksize,为什么???(map的数量)
<1>当hive需要处理的文件是压缩,且压缩算法不支持文件切分的时候,决定map个数的因素主要是文件块实际存储的大小,
如果文件块本身很大,比如500Mb左右,那么每个map处理的splitsize至少要是500Mb左右。
这个时候我们不能人为通过参数降低每个map的splitsize来增加map个数,只能通过增加splitsize,减少map个数,
如果hive处理的文件是压缩模式,且压缩模式不支持文件切分,那么这个时候我们只能通过控制参数来减少map个数,而不能通过配置参数来增加map个数,所以Hive对于压缩不可切分文件的调优有限
<2>如果Hive处理的的文件为非压缩格式或者压缩可切分,且inputFormat为CombineHiveInputFormat时,
则控制map个数是由以下四个参数起作用,关于这四个参数作用优先级与使用注意事项请参考如下:
一般来讲这几个参数的结果大小要满足以下条件:
maxsplitsize >= minsplitsize >= minsizepernode >= minsizeperrack
几个参数的作用优先级为:
maxsplitsize <= minsplitsize <= minsizepernode <= minsizeperrack
总结:所以对于控制map的个数进行调优,首先需要看是否开启了压缩,压缩算法是否支持切分,参数的设置等等!
5、set mapredminsplitsizepernode=256000000;
一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并) ,
和第3和第4个参数一起配合使用。
6、set mapredminsplitsizeperrack=256000000;
一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并) ,
也适合第3,4,5的参数一起配合使用。
7、set hiveexecmodelocalauto=true;
开启本地模式,这个参数在自己学习中可能经常用到,但是在实际生产中用到的还是比较少,
因为这个参数开启后,针对的是小数据集,在单台机器上处理所有的任务,对生产中的任务不适用!
8、set hiveexecreducersbytesperreducer=51210001000;
每个reduce任务处理的数据量,默认为256M,在hive0140之前默认是1G,我们公司设置的是512M,写的是51210001000因为在网络传输中用的是1000,而不是1024机制,
将该参数值调小可以增加reduce的数量,提高运行的效率,
当然也不是reduce的数量越多越好,因为启动和初始化reduce都是会消耗资源和时间的,
而且有多少个reduce就会有多少个输出文件,如果这些文件作为下一个任务的输入,就会造成小文件过多的问题
9、hiveexecreducersmax
每个任务最大的reduce数,默认为1009,在hive0140之前默认是999
计算reducer数的公式很简单N=min(参数9,总输入数据量/参数8)
即,如果reduce的输入(map的输出)总大小不超过1G,那么只会有一个reduce任务;
10、set mapredreducetasks = 15;
设置reduce的个数(在实际生产中谨慎使用)
那么什么时候可以进行手动设定reduce数量呢?比如系统自动计算的reduce个数,因为集群资源不足,
造成程序运行出现OOM(内存溢出不足)时,可以根据推定的reduce个数手动增加数量,保证程序在跑的慢的基础上可以完整运行
那么在什么情况下只有一个reduce呢?
<1>、当map的输出文件小于hiveexecreducersbytesperreducer时
<2>、手动设置set mapredreducetasks =1时
<3>、使用了order by时(全局排序会使用一个reduce去处理)
<4>、表关联时出现笛卡尔积
<5>、单独使用count时,比如:select count() from tablename,
如果改写加入了group by配合使用就不会出现一个reduce,比如:select sign_date,count() from tablename group by sign_date;
11、set mapredjobreusejvmnumtasks=10;
用于避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短,因为hive调起mapreduce任务,JVM的启动过程会造成很大的开销,尤其是job有成千上万个task任务时,JVM重用可以使得JVM实例在同一个job中重新使用N次
12、set hiveexecdynamicpartition=true;
表示开启动态分区功能
13、set hiveexecdynamicpartitionmode=nonstrict;
表示允许所有分区都是动态的,
默认是strict,表示必须保证至少有一个分区是静态的
14、set hivegroupbyskewindata=true;
有数据倾斜的时候进行负载均衡 ,决定group by *** 作是否支持倾斜数据,其实说白了就相当于MR中的conbiner做了一次预聚合。
注意:只能对单个字段聚合。
控制生成两个MR Job,第一个MR Job Map的输出结果随机分配到reduce中减少某些key值条数过多某些key条数过小造成的数据倾斜问题。
在第一个 MapReduce 中,map 的输出结果集合会随机分布到 reduce 中, 每个reduce 做部分聚合 *** 作,并输出结果。这样处理的结果是,相同的 Group By Key 有可能分发到不同的reduce中,从而达到负载均衡的目的;
第二个 MapReduce 任务再根据预处理的数据结果按照 Group By Key 分布到 reduce 中(这个过程可以保证相同的 Group By Key 分布到同一个 reduce 中),最后完成最终的聚合 *** 作
15、set hiveautoconvertjoin=true;
开启map join
16、set hivemapjoinsmalltablefilesize=512000000;
map join的小表的大小,也是开启和关闭map join的阈值
17、hiveexeccompressoutput=true;
开启压缩,我们公司使用的是默认的压缩算法deflate
压缩算法有:<1>、orgapachehadoopiocompressGzipCodec,
<2>、orgapachehadoopiocompressDefaultCodec,
<3>、comhadoopcompressionlzoLzoCodec,
<4>、comhadoopcompressionlzoLzopCodec,
<5>、orgapachehadoopiocompressBZip2Codec
使用的压缩算法:
set mapreduceoutputfileoutputformatcompresscodec=orgapachehadoopiocompressDefaultCodec
针对上述小文件合并的三个参数值做以下解释:
大于文件块大小128m的,按照128m来分隔,小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的),进行合并
服务器宕机有可能是网络故障,有可能是突发的访问量暴增、服务器处理不过来的问题。
服务器处理和响应不过来,会导致丢弃部分请求不予处理,更严重的会导致服务端崩溃。
防止由于服务器宕机可能导致的数据丢失问题的解决办法有:
一、数据备份与“多云”
如果是物理机,要做好数据备份,比如做raid;如果是选择的公有云,则最好把数据分存在不同的服务商那里。
二、web服务器配置优化
对Web服务器进行配置优化,比如:调整内存数量、线程数量等;提供多个能提供相同服务的Web服务器,以实现负载均衡;仔细规划Web服务器上部署的应用规模;对Web服务器进行集群。
三、数据库集群,进行读写分离
这个参数一般是指服务器的配置硬件和网络配置参数,比如:名称:1999/年快云VPS经济型服务器
CPU: E5-2600系列 四核
内存:3GB DDR3 ECC 1333MHz
硬盘:140G SAS硬盘( 40G系统盘+ 100G数据盘)
网卡:千兆网卡
地址:独享IP地址一个
线路:类型BGP多线(电信、联通、移动、铁通)
带宽:配额5M独享
赠送:云数据库DB-1型 3G+3G备份 MySQL55或MS SQL Server2012
系统:Windows2003/windows2008/centos 66
参数详情中详细列出了硬件各配置的具体数值,以及网络配置和系统的详情选择。这就是服务器参数。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)