Conda可以帮助正确管理很多依赖项…
安装火花。假设spark安装在/ opt / spark中,请将其包含在〜/ .bashrc中:
export SPARK_HOME=/opt/sparkexport PATH=$SPARK_HOME/bin:$PATH
创建一个conda环境,其中包含除spark之外的所有必需依赖项:
conda create -n findspark-jupyter-openjdk8-py3 -c conda-forge python=3.5 jupyter=1.0 notebook=5.0 openjdk=8.0.144 findspark=1.1.0
激活环境
$ source activate findspark-jupyter-openjdk8-py3
启动Jupyter Notebook服务器:
$ jupyter notebook
在浏览器中,创建一个新的Python3笔记本
试着用下面的脚本(从借来的计算PI这个)
import findsparkfindspark.init()import pysparkimport randomsc = pyspark.SparkContext(appName="Pi")num_samples = 100000000def inside(p): x, y = random.random(), random.random() return x*x + y*y < 1count = sc.parallelize(range(0, num_samples)).filter(inside).count()pi = 4 * count / num_samplesprint(pi)sc.stop()
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)