spark进入txt文件的命令_软件运维

spark进入txt文件的命令

1、首先启动spark-shell进入Spark-shell模式：（进入spark目录下后输入命令 bin/spark-shell启动spark-shell模式）

2、加载text文件（spark创建sc，可以加载本地文件和HDFS文件戚庆州创建RDD）

val textFile = sc.textFile("file:///home/hadoop/test1.txt") #注意file:后是三个“/”

注意：加载HDFS文件和本地文件都是使用textFile，区别是添加前缀(hdfs://和file://)进行标识。

3、获取RDD文件textFile所有项（文本文件即总共行数）的计数（还有很多其他的RDD *** 作，自行百度）

textFile.count() #统计结果显示 1 行

二、在 spark-shell 中读取 HDFS 系统文件“/home/hadoop/test.csv（也可以是txt文件）”（如果该差告文件不存在，请先创建），然后，统计出文件的行数：

方法一：

1、加载text文件（spark创建sc，可以加载本地文件和HDFS文件创建RDD）

val textFile = sc.textFile("hdfs:///home/hadoop/test.csv") #注意hdfs:后是三个“/”

注意：加载HDFS文件和本地文件都是使用textFile，区别是添加前缀(hdfs://和file://)进行标识。

2、获取RDD文件textFile所有项的计数

textFile.count() #统计结果显示 1 行

方法二：（Spark shell 默认是读取 HDFS 中的文件，需要先上传文件到 HDFS 中，否则会有“org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/user/hadoop/README.md”的错误。）

1、省去方法一中第一步的命令（1）中的“hdfs：//”，其他部分相同，命令如下：

三、编写独立应用程序，读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；通过 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令：

1、首先输入:quit 命令退出spark-shell模式：

2、在终端中执行如下命令创建一个文件夹 sparkapp3 作为应用程序根目录：

cd ~ # 进入用户主文件夹

mkdir ./sparkapp3 # 创建应用程序根目录

mkdir -p ./sparkapp3/src/高蔽main/scala # 创建所需的文件夹结构

3、在 ./sparkapp3/src/main/scala 下建立一个名为 SimpleApp.scala 的文件（vim ./sparkapp3/src/main/scala/SimpleApp.scala），添加代码如下：

/* SimpleApp.scala */

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.SparkConf

object SimpleApp {

def main(args: Array[String]) {

val logFile = "hdfs://localhost:9000/home/hadoop/test.csv"

val conf = new SparkConf().setAppName("Simple Application")

val sc = new SparkContext(conf)

val logData = sc.textFile(logFile, 2)

val num = logData.count()

println("这个文件有 %d 行！".format(num))

}

4、该程序依赖 Spark API，因此我们需要通过 sbt 进行编译打包。 ./sparkapp3 中新建文件 simple.sbt（vim ./sparkapp3/simple.sbt），添加内容如下，声明该独立应用程序的信息以及与 Spark 的依赖关系：

name := "Simple Project"

version := "1.0"

scalaVersion := "2.12.10"

libraryDependencies += "org.apache.spark" %% "spark-core" % "3.0.0-preview2"

spark和hadoop的区别：诞生的先后顺序、计算不同、平台不同。

诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二森盯代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。

计算不同spark和hadoop在分布式计算的底层思路上，其实宏昌是极为相似的，即mapreduce分布式运算模此绝和型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将运算结果shuffle给下游的reduce，reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而spark的一个job中，可以将多个map-reduce过程级联进行。

平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术需求量大，offer好拿。

Spark是一种通用的大数据计算框架，和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架，而mapreduce侧重磁租猛隐盘计算。Spark是加州知巧大学伯克利分校AMP实验室开发的通用内存并行计算框架，用于构建大型的、低延迟的数据分析应用程序。

Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Mapreduce快10-100倍。而实时计算方面，则依赖于弊厅SparkStreaming的批处理能力，吞吐量大。不过相比Storm，SparkStreaming并不能做到真正的实时。

Spark使用强大的函数式语言Scala开发，方便简单。同时，它还提供了对Python、Java和R语言的支持。

作为大数据计算框架MapReduce的继任者，Spark具备以下优势特性。

1，高效性

不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快100倍。

2，易用性

不同于MapReduce仅支持Map和Reduce两种编程算子，Spark提供了超过80种不同的Transformation和Action算子，如map,reduce,filter,groupByKey,sortByKey,foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。

3，通用性

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。

4，兼容性

Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12380321.html

spark进入txt文件的命令

发表评论

评论列表（0条）