思路很简单:Spark 可以通过 JDBC 读取 MySQL 上的数据,也可以执行 SQL 查询,因此我们可以直接连接到 MySQL 并执行查询。那么为什么速度会快呢?对一些需要运行很长时间的查询(如报表或者BI),由于 Spark 是一个大规模并行系统,因此查询会非常的快。MySQL 只能为每一个查询分配一个 CPU 核来处理,而 Spark 可以使用所有集群节点的所有核。在下面的例子中,我们会在 Spark 中执行 MySQL 查询,这个查询速度比直接在 MySQL 上执行速度要快 5 到 10 倍。
另外,Spark 可以增加“集群”级别的并行机制,在使用 MySQL 复制或者 Percona XtraDB Cluster 的情况下,Spark 可以把查询变成一组更小的查询(有点像使用了分区表时可以在每个分区都执行一个查询),然后在多个 Percona XtraDB Cluster 节点的多个从服务器上并行的执行这些小查询。最后它会使用map/reduce 方式将每个节点返回的结果聚合在一起形成完整的结果。
1.尽量不要在where中包含子查询关于时间的查询,尽量不要写成:where
to_char(dif_date,’yyyy-mm-dd’)=to_char(‘2007-07-01′,’yyyy-mm-dd’)
2.在过滤条件中,可以过滤掉最大数量记录的条件必须放在where子句的末尾
FROM子句中写在最后的表(基础表,driving
table)将被最先处理,在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有三个以上的连接查询,那就需要选择交叉表
(intersection
table)作为基础表,交叉表是指那个被其他表所引用的表
3.采用绑定变量
4.在WHERE中尽量不要使用OR
5.用EXISTS替代IN、用NOT
EXISTS替代NOT
IN
6.避免在索引列上使用计算:WHERE
SAL*12>25000
7.用IN来替代OR:
WHERE
LOC_ID=10
OR
LOC_ID=15
OR
LOC_ID=20
8.避免在索引列上使用IS
NULL和IS
NOT
NULL
9.总是使用索引的第一个列
10.用UNION-ALL替代UNION
11.避免改变索引列的类型:SELECT…FROM
EMP
WHERE
EMPNO=’123’,由于隐式数据类型转换,to_char(EMPNO)=’123’,因此,将不采用索引,一般在采用字符串拼凑动态SQL语句出现
12.’!=’
将不使用索引
13.优化GROUP
BY
14.避免带有LIKE参数的通配符,LIKE
‘4YE%’使用索引,但LIKE
‘%YE’不使用索引
15.避免使用困难的正规表达式,例如select
*
from
customer
where
zipcode
like
“98___”,即便在zipcode上建立了索引,在这种情况下也还是采用顺序扫描的方式。如果把语句改成select
*
from
customer
where
zipcode>”98000″,在执行查询时就会利用索引来查询,显然会大大提高速度
16.尽量明确的完成SQL语句,尽量少让数据库工作。比如写SELECT语句时,需要把查询的字段明确指出表名。尽量不要使用SELECT
*语句。组织SQL语句的时候,尽量按照数据库的习惯进行组织。
就是sql查询优化呗。在不是服务器性能影响的时候,可以关注以下:
1、通过explain查看sql的执行计划,看是否用到了索引
2、是否sql写的不合理,需要改写sql等
3、还是sql没有问题,索引也合理,就是数据太大,字段太多引起查询慢,这个就可以考虑是不是改分表或者分开啥的。
优化这一块涉及到的比较多,可以多重网上,或者博客看看总结,对比你的情况去优化
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)