思路很简单:Spark 可以通过 JDBC 读取 MySQL 上的数据,也可以执行 SQL 查询,因此我们可以直接连接到 MySQL 并执行查询。那么为什么速度会快呢?对一些需要运行很长时间的查询(如报表或者BI),由于 Spark 是一个大规模并行系统,因此查询会非常的快。MySQL 只能为每一个查询分配一个 CPU 核来处理,而 Spark 可以使用所有集群节点的所有核。在下面的例子中,我们会在 Spark 中执行 MySQL 查询,这个查询速度比直接在 MySQL 上执行速度要快 5 到 10 倍。
另外,Spark 可以增加“集群”级别的并行机制,在使用 MySQL 复制或者 Percona XtraDB Cluster 的情况下,Spark 可以把查询变成一组更小的查询(有点像使用了分区表时可以在每个分区都执行一个查询),然后在多个 Percona XtraDB Cluster 节点的多个从服务器上并行的执行这些小查询。最后它会使用 map/reduce 方式将每个节点返回的结果聚合在一起行程完整的结果。
这篇文章跟我之前文章 “Airlines On-Time Performance” 所使用的数据库是相同的。瓦迪姆创建了一些脚本可以方便的下载这些数据并上传到 MySQL 数据库。脚本的下载地址请看 这里。同时我们这次使用的是 2016年7月26日发布的Apache Spark 2.0。
一.读取mysql数据
1.创建一个mysql数据库
user_test表结构如下:
1 create table user_test (2 id int(11) default null comment "id",3 name varchar(64) default null comment "用户名",4 password varchar(64) default null comment "密码",5 age int(11) default null comment "年龄"6 )engine=InnoDB default charset=utf-8
2.插入数据
1 insert into user_test values(12, 'cassie', '123456', 25)2 insert into user_test values(11, 'zhangs', '1234562', 26)3 insert into user_test values(23, 'zhangs', '2321312', 27)4 insert into user_test values(22, 'tom', 'asdfg', 28)
3.创建maven工程,命名为Test,添加java类SparkMysql
f(isset($_POST['submit'])&&$_POST['submit']=='提交'){3 //判断是否是提交过来的
4 $intext = $_POST['intext']
5 if($intext!=null||$intext!=''){
6 $link = mysql_connect("localhost", "root", "123456")
7 //数据库配置信息 第一个参数数据库位置第二个是用户名第三个是密码
8 mysql_select_db("szn_test")
9 //设置要使用的数据库
10 $sql = "select * from demo where res = '".$intext."'"
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)