这里说明一点:本文提到的解决 Spark insertIntoJDBC找不到Mysql驱动的方法是针对单机模式(也就是local模式)。在集群环境下,下面的方法是不行的。这是因为在分布式环境下,加载mysql驱动包存在一个Bug,1.3及以前的版本 --jars 分发的jar在executor端是通过 Spark自身特化的classloader加载的。而JDBC driver manager使用的则是系统默认的classloader,因此无法识别。可行的方法之一是在所有 executor 节点上预先装好JDBC driver并放入默认的classpath。
不过Spark 1.4应该已经fix了这个问题,即 --jars 分发的 jar 也会纳入 YARN 的 classloader 范畴。
今天在使用Spark中DataFrame往Mysql中插入RDD,但是一直报出以下的异常次信息:
01
[itelbog@iteblog~]$ bin/spark-submit --master local[2]
02
--jars lib/mysql-connector-java-5.1.35.jar
03
--class spark.sparkToJDBC ./spark-test_2.10-1.0.jar
04
05
spark assembly has been built with Hive, including Datanucleus jars on classpath
06
Exception in thread "main" java.sql.SQLException: No suitable driver found for
07
jdbc:mysql://www.iteblog.com:3306/spark?user=root&password=123&useUnicode=
08
true&characterEncoding=utf8&autoReconnect=true
09
at java.sql.DriverManager.getConnection(DriverManager.java:602)
10
at java.sql.DriverManager.getConnection(DriverManager.java:207)
11
at org.apache.spark.sql.DataFrame.createJDBCTable(DataFrame.scala:1189)
12
at spark.SparkToJDBC$.toMysqlFromJavaBean(SparkToJDBC.scala:20)
13
at spark.SparkToJDBC$.main(SparkToJDBC.scala:47)
14
at spark.SparkToJDBC.main(SparkToJDBC.scala)
15
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
16
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
17
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
18
at java.lang.reflect.Method.invoke(Method.java:597)
19
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$
20
$runMain(SparkSubmit.scala:569)
21
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)
22
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)
23
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)
24
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
感觉很奇怪,我在启动作业的时候加了Mysql驱动啊在,怎么会出现这种异常呢??经过查找,发现在--jars参数里面加入Mysql是没有用的。通过查找,发现提交的作业可以通过加入--driver-class-path参数来设置driver的classpath,试了一下果然没有出现错误!
1
[itelbog@iteblog ~]$ bin/spark-submit --master local[2]
2
--driver-class-path lib/mysql-connector-java-5.1.35.jar
3
--class spark.SparkToJDBC ./spark-test_2.10-1.0.jar
其实,我们还可以在spark安装包的conf/spark-env.sh通过配置SPARK_CLASSPATH来设置driver的环境变量,如下:
(这里需要注意的是,在Spark1.3版本中,在Spark配置中按如下进行配置时,运行程序时会提示该配置方法在Spark1.0之后的版本已经过时,建议使用另外两个方法;其中一个就是上面讲到的方法。另外一个就是在配置文件中配置spark.executor.extraClassPath,具体配置格式会在试验之后进行补充)
1
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/iteblog/com/mysql-connector-java-5.1.35.jar
这样也可以解决上面出现的异常。但是,我们不能同时在conf/spark-env.sh里面配置SPARK_CLASSPATH和提交作业加上--driver-class-path参数,否则会出现以下异常:
查看源代码打印帮助
01
[itelbog@iteblog~]$ bin/spark-submit --master local[2]
02
--driver-class-path lib/mysql-connector-java-5.1.35.jar
03
--class spark.SparkToJDBC ./spark-test_2.10-1.0.jar
04
05
Spark assembly has been built with Hive, including Datanucleus jars on classpath
06
Exception in thread "main"org.apache.spark.SparkException:
07
Found both spark.driver.extraClassPath and SPARK_CLASSPATH. Use only the former.
08
at org.apache.spark.SparkConf$$anonfun$validateSettings$6$$anonfun$apply
09
$7.apply(SparkConf.scala:339)
10
at org.apache.spark.SparkConf$$anonfun$validateSettings$6$$anonfun$apply
11
$7.apply(SparkConf.scala:337)
12
at scala.collection.immutable.List.foreach(List.scala:318)
13
at org.apache.spark.SparkConf$$anonfun$validateSettings$6.apply(SparkConf.scala:337)
14
at org.apache.spark.SparkConf$$anonfun$validateSettings$6.apply(SparkConf.scala:325)
15
at scala.Option.foreach(Option.scala:236)
16
at org.apache.spark.SparkConf.validateSettings(SparkConf.scala:325)
17
at org.apache.spark.SparkContext.<init>(SparkContext.scala:197)
18
at spark.SparkToJDBC$.main(SparkToJDBC.scala:41)
19
at spark.SparkToJDBC.main(SparkToJDBC.scala)
20
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
21
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
22
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
23
at java.lang.reflect.Method.invoke(Method.java:597)
24
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$
25
deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)
26
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)
27
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)
28
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)
29
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
1、首先创建一个工程,名字为:HelloWorld;不建议用IDE创建,因为现在IntelliJ idea和Eclipse做的Scala插件还不够好用,开发中会出现很多问题,建议用typeSafe魔板创建。
2、打开工程的bulid.sbt文件;加上这么一句:
3、然后将mysql的驱动也加上
在sbt中加入了新的依赖以后,一定要记得refresh一下,这样sbt才能将新加的东西加入。
4、接下来,我们打开conf/application.conf文件,
将自己的数据库链接信息添上去。
注意,如果想链接多个数据源,只需要修改“db.default.driver”就可以,注意“db.default.driver”中“default”是数据源的名字,可以修改。例如,你想创建一个“abc”数据源,就可以写成“db.abc.driver”
,在代码中获取数据源的时候,就写成DB.getDataSource("abc"),如果想获取默认数据源(default),可以直接写成DB.getDataSource(),因为:
这是源码,显而易见了吧。而且通过源码,可以知道,play用的数据库链接池是BoneCP,这是一个很棒的数据库连接池,比DBCP和C3P0要快很多,但是没有HikariCP快,BoneCP的官方文档是这么说的:“It beats older connection pools such as C3P0 and DBCP but should now be considered deprecated in favour of HikariCP”不知道play以后会不会使用HikariCP作为数据库连接池。而且,play的数据库连接池是写死的,没法通过application.conf扩展数据库连接池(可以用其他途径扩展,如自己在sbt中依赖数据库连接池,然后不通过配置文件,用数据库本身的方法来获取数据源实现连接。),个人感觉应该改良一下。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)