如何运行含spark的python脚本

如何运行含spark的python脚本,第1张

2~spark$ bin/spark-submit first.py

-----------first.py-------------------------------

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App")

sc = SparkContext(conf = conf)

lines = sc.textFile("first.py")

pythonLines = lines.filter(lambda line: "Python" in line)

print "hello python"

print pythonLines.first()

print pythonLines.first()

print "hello spark!"

---------------------------------------------------

hello python

pythonLines = lines.filter(lambda line: "Python" in line)

pythonLines = lines.filter(lambda line: "Python" in line)

hello spark!

到spark的安装目录下/bin 下面 spark-submit ***.py 即可

你全是win环境

代码没有什么太多的问题 spark环境检查 测试pyspark能否正常使用

再像你这样提交spark作业

tmprdd1 = csdnRDD.map(lambda x: (x.split("\t")[2]))

x.split("\t")会产生一个list,有些数据是异常异常,产生的list不一定会有三个元素,所以就会异常退出。

你可以使用csdnRDD.map(lambda x:x.split("\t")).filter(lambda x:len(x)<3) 看看有哪一写异常数据,然后确定如何过滤掉这些异常数据。

在ipython中使用spark

说明:

spark 1.6.0

scala 2.10.5

spark安装路径是/usr/local/spark;已经在.bashrc中配置了SPARK_HOME环境变量。

方法一

/usr/local/Spark/bin/pyspark默认打开的是Python,而不是ipython。通过在pyspark文件中添加一行,来使用ipython打开。

cp pyspark ipyspark

vi ipyspark

# 在最前面添加

IPYTHON=1

# 启动

ipyspark

方法二:

通过为spark创建一个ipython 配置的方式实现。

# 为spark创建一个ipython 配置

ipython profile create spark

# 创建启动配置文件

cd ~/.config/ipython/profile_spark/startup

vi 00-pyspark-setup.py

在00-pyspark-setup.py中添加如下内容:

import os

import sys

# Configure the environment

if 'SPARK_HOME' not in os.environ:

os.environ['SPARK_HOME'] = '/srv/spark'

# Create a variable for our root path

SPARK_HOME = os.environ['SPARK_HOME']

# Add the PySpark/py4j to the Python Path

sys.path.insert(0, os.path.join(SPARK_HOME, "python", "pyspark"))

sys.path.insert(0, os.path.join(SPARK_HOME, "python", "lib", "py4j-0.9-src.zip"))

sys.path.insert(0, os.path.join(SPARK_HOME, "python"))

启动ipython

ipython –profile spark

测试程序

在ipython中输入一下命令,如果下面的程序执行完后输出一个数字,说明正确。

from pyspark import SparkContext

sc = SparkContext( 'local', 'pyspark')

def isprime(n):

"""

check if integer n is a prime

"""

# make sure n is a positive integer

n = abs(int(n))

# 0 and 1 are not primes

if n <2:

return False

# 2 is the only even prime number

if n == 2:

return True

# all other even numbers are not primes

if not n &1:

return False

# for all odd numbers

for x in range(3, int(n**0.5)+1, 2):

if n % x == 0:

return False

return True

# Create an RDD of numbers from 0 to 1,000,000

nums = sc.parallelize(xrange(1000000))

# Compute the number of primes in the RDD

print 逗Result: 地, nums.filter(isprime).count()

方法三

将上面的程序放入test.py文件,执行命令python test.py。发现错误。因为没有将pyspark路径加入PYTHONPATH环境变量。

在~/.bashrc或/etc/profile中添加如下内容:

# python can call pyspark directly

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH

执行如下命令:

# 使配置生效

source ~/.bashrc

# 测试程序

python test.py


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11381421.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-15
下一篇 2023-05-15

发表评论

登录后才能评论

评论列表(0条)

保存