scala如何去掉数组中重读的值

scala如何去掉数组中重读的值,第1张

Array与ArrayBuffer的元素删除 *** 作

由于Array是不可变的,所以不能直接地对其元素进行删除 *** 作,只能通过重赋值或过滤生成新的Array的方式来删除不要的元素。

而ArrayBuffer是可变的,本身提供了很多元素的 *** 作,当然包括删除 *** 作。

具体实现看实例代码:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

import scala.collection.mutable.ArrayBuffer

/**

* 删除可变和不可变集合的元素的 *** 作

*/

object DeleteOperators extends App {

/*Array的size是不可以改变的,所以没有直接删除其元素的方法,

只能通过修改其元素值或者用另外的Array来取要的元素,过滤不要的元素,说白了就是通过过滤来删除Array中的元素,生存新的Array.

* */

val a = Array("apple", "banana", "cherry")

a(0)=""

a(1)=null

a.foreach(println)

val x = Array("apple", "banana", "cherry")

val c = x.filter(!_.contains("apple"))

c.foreach(println)

/*ArrayBuffer是可变的序列,也就是说它的size是可改变的,所以可以直接删除它的元素,它提供了响应的方法.*/

val b = ArrayBuffer('a','b','c','d','e','f','g','h','i','j','k','l')

b -= 'a' //删除1个指定元素

b -= ('b','c') //删除多个指定元素

b --= Seq('d','e') //通过1个集合来删除元素(可以用Array,Set)

b.remove(0) //通过index来删除元素

b.remove(1,2) //通过index来删除多个元素

b.clear() //清除所有元素

println(b)

}

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。

1、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。

2、数据存储:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。

3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。

4、数据查询分析:Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。

这里说明一点:本文提到的解决 Spark insertIntoJDBC找不到Mysql驱动的方法是针对单机模式(也就是local模式)。在集群环境下,下面的方法是不行的。这是因为在分布式环境下,加载mysql驱动包存在一个Bug,1.3及以前的版本 --jars 分发的jar在executor端是通过 Spark自身特化的classloader加载的。而JDBC driver manager使用的则是系统默认的classloader,因此无法识别。可行的方法之一是在所有 executor 节点上预先装好JDBC driver并放入默认的classpath。

不过Spark 1.4应该已经fix了这个问题,即 --jars 分发的 jar 也会纳入 YARN 的 classloader 范畴。

今天在使用Spark中DataFrame往Mysql中插入RDD,但是一直报出以下的异常次信息:

01

[itelbog@iteblog~]$  bin/spark-submit --master local[2]

02

  --jars lib/mysql-connector-java-5.1.35.jar

03

  --class  spark.sparkToJDBC ./spark-test_2.10-1.0.jar

04

05

spark assembly has been built with Hive, including Datanucleus jars on classpath

06

Exception in thread "main" java.sql.SQLException: No suitable driver found for

07

jdbc:mysql://www.iteblog.com:3306/spark?user=root&password=123&useUnicode=

08

true&characterEncoding=utf8&autoReconnect=true

09

  at java.sql.DriverManager.getConnection(DriverManager.java:602)

10

  at java.sql.DriverManager.getConnection(DriverManager.java:207)

11

  at org.apache.spark.sql.DataFrame.createJDBCTable(DataFrame.scala:1189)

12

  at spark.SparkToJDBC$.toMysqlFromJavaBean(SparkToJDBC.scala:20)

13

  at spark.SparkToJDBC$.main(SparkToJDBC.scala:47)

14

  at spark.SparkToJDBC.main(SparkToJDBC.scala)

15

  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

16

  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)

17

  at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)

18

  at java.lang.reflect.Method.invoke(Method.java:597)

19

  at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$

20

$runMain(SparkSubmit.scala:569)

21

  at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)

22

  at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)

23

  at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)

24

  at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

感觉很奇怪,我在启动作业的时候加了Mysql驱动啊在,怎么会出现这种异常呢??经过查找,发现在--jars参数里面加入Mysql是没有用的。通过查找,发现提交的作业可以通过加入--driver-class-path参数来设置driver的classpath,试了一下果然没有出现错误!

1

[itelbog@iteblog ~]$  bin/spark-submit --master local[2]

2

  --driver-class-path lib/mysql-connector-java-5.1.35.jar

3

  --class  spark.SparkToJDBC ./spark-test_2.10-1.0.jar

其实,我们还可以在spark安装包的conf/spark-env.sh通过配置SPARK_CLASSPATH来设置driver的环境变量,如下:

(这里需要注意的是,在Spark1.3版本中,在Spark配置中按如下进行配置时,运行程序时会提示该配置方法在Spark1.0之后的版本已经过时,建议使用另外两个方法;其中一个就是上面讲到的方法。另外一个就是在配置文件中配置spark.executor.extraClassPath,具体配置格式会在试验之后进行补充)

1

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/iteblog/com/mysql-connector-java-5.1.35.jar

这样也可以解决上面出现的异常。但是,我们不能同时在conf/spark-env.sh里面配置SPARK_CLASSPATH和提交作业加上--driver-class-path参数,否则会出现以下异常:

查看源代码打印帮助

01

[itelbog@iteblog~]$  bin/spark-submit --master local[2]

02

  --driver-class-path lib/mysql-connector-java-5.1.35.jar

03

  --class  spark.SparkToJDBC ./spark-test_2.10-1.0.jar

04

05

Spark assembly has been built with Hive, including Datanucleus jars on classpath

06

Exception in thread "main"org.apache.spark.SparkException:

07

  Found both spark.driver.extraClassPath and SPARK_CLASSPATH. Use only the former.

08

  at org.apache.spark.SparkConf$$anonfun$validateSettings$6$$anonfun$apply

09

$7.apply(SparkConf.scala:339)

10

  at org.apache.spark.SparkConf$$anonfun$validateSettings$6$$anonfun$apply

11

$7.apply(SparkConf.scala:337)

12

  at scala.collection.immutable.List.foreach(List.scala:318)

13

  at org.apache.spark.SparkConf$$anonfun$validateSettings$6.apply(SparkConf.scala:337)

14

  at org.apache.spark.SparkConf$$anonfun$validateSettings$6.apply(SparkConf.scala:325)

15

  at scala.Option.foreach(Option.scala:236)

16

  at org.apache.spark.SparkConf.validateSettings(SparkConf.scala:325)

17

  at org.apache.spark.SparkContext.<init>(SparkContext.scala:197)

18

  at spark.SparkToJDBC$.main(SparkToJDBC.scala:41)

19

  at spark.SparkToJDBC.main(SparkToJDBC.scala)

20

  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

21

  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)

22

  at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)

23

  at java.lang.reflect.Method.invoke(Method.java:597)

24

  at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$

25

      deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)

26

  at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)

27

  at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)

28

  at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)

29

  at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/8544124.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-17
下一篇 2023-04-17

发表评论

登录后才能评论

评论列表(0条)

保存