[root@idc1-server2 ~]# mv /usr/bin/du /usr/bin/duorig
[root@idc1-server2 ~]# vim /usr/bin/du
1 #!/bin/sh
2
3 mydf=$(df -Pk $2 | grep -vE '^Filesystem|tmpfs|cdrom' | awk '{ print $3 }')
4 echo -e "$mydf\t$2"
[root@idc1-server2 ~]# chmod +x /usr/bin/du
不过这样的话,统计出来的结果不就不准确了吗?
但具体情况具体应对,一般来说,Hadoop的datanode都会采用不同的磁盘并划分分区来存储数据,那么使用df统计出来的结果,误差应该是很小的。你这个情况属于死翘翘的,所谓优化大部分都需要代码的,而且代码级别的优化是最简单最粗浅的了,绕开代码级别的优化属于架构级别的优化了,那样代价就更高了,而且代码级别的优化都做不到,那架构级优化就更难了。如果sql都优化不了,你就算增加内存,增加cpu,增加服务器,即使你改到小型机上,而代码本身却不能够使用这些资源,你也是白搭的,你现在目前能做的要么放任自流,要么重新组建开发团队开发了。如何让CentOS服务器磁盘io性能翻倍
这一期我们来看一下有哪些办法可以减少linux下的文件碎片。主要是针对磁盘长期满负荷运转的使用场景(例如>
处理大量数据并发 *** 作可以采用如下几种方法:
1使用缓存:使用程序直接保存到内存中。或者使用缓存框架: 用一个特定的类型值来保存,以区别空数据和未缓存的两种状态。
2数据库优化:表结构优化;SQL语句优化,语法优化和处理逻辑优化;分区;分表;索引优化;使用存储过程代替直接 *** 作。
3分离活跃数据:可以分为活跃用户和不活跃用户。
4批量读取和延迟修改: 高并发情况可以将多个查询请求合并到一个。高并发且频繁修改的可以暂存缓存中。
5读写分离: 数据库服务器配置多个,配置主从数据库。写用主数据库,读用从数据库。
6分布式数据库: 将不同的表存放到不同的数据库中,然后再放到不同的服务器中。
7NoSql和Hadoop: NoSql,not only SQL。没有关系型数据库那么多限制,比较灵活高效。Hadoop,将一个表中的数据分层多块,保存到多个节点(分布式)。每一块数据都有多个节点保存(集群)。集群可以并行处理相同的数据,还可以保证数据的完整性。
:
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
参考资料:网页链接
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)