我最近安装了pyspark.它安装正确.当我在python中使用下面的简单程序时,我得到了一个错误.

>>from pyspark import SparkContext
>>sc = SparkContext()
>>data = range(1,1000)
>>rdd = sc.parallelize(data)
>>rdd.collect()

在运行最后一行时,我遇到了一个错误,其关键行似乎是

[Stage 0:>                                                          (0 + 0) / 4]18/01/15 14:36:32 ERROR Executor: Exception in task 1.0 in stage 0.0 (TID 1)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/usr/local/lib/python3.5/dist-packages/pyspark/python/lib/pyspark.zip/pyspark/worker.py", line 123, in main
    ("%d.%d" % sys.version_info[:2], version))
Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.

我有以下变量.巴什尔

export SPARK_HOME=/opt/spark
export PYTHONPATH=$SPARK_HOME/python3

我正在使用Python 3.

推荐答案

顺便说一句,如果您使用PyCharm,您可以添加PYSPARK_PYTHONPYSPARK_DRIVER_PYTHON来运行/调试下图中的配置

Python-3.x相关问答推荐

如何在Python Matplotlib中在x轴上放置点

根据其他数据框架的列顺序从数据框架中进行 Select

如何从包含SPAN文本的标记中获取链接

新行是pandas数据帧中旧行的组合

visual studio代码窗口中未激活虚拟环境11

如何在当前测试中使用fixture 转换后的数据进行参数化?

匹配语句NaN

从 LeetCode 的 Python 解决方案类中理解关键字 self

从列表的元素和python中的多个多索引数据帧执行方程

删除给定数组中所有元素为True的所有子数组

Pandas matplotlib:条形图占总数的百分比

双轴上的刻度和标签

RGB 图像中最主要的 colored颜色 - OpenCV / NumPy / Python

如何注释一个以另一个函数作为参数的函数?

发送Electron邮件时的 MIMEText UTF-8 编码问题

如何将 cv2.imread 匹配到 keras image.img_load 输出

将 args、kwargs 传递给 run_in_executor

python判断一个方法是否被调用而不模拟它

为什么变量 = 对象不像变量 = 数字那样工作

如何更改 tkinter 文本小部件中某些单词的 colored颜色 ?