Я собрал Spark 1.4 из мастера разработки GH, и сборка прошла нормально. Но когда я делаю это, bin/pyspark
я получаю версию Python 2.7.9. Как я могу это изменить?
Я собрал Spark 1.4 из мастера разработки GH, и сборка прошла нормально. Но когда я делаю это, bin/pyspark
я получаю версию Python 2.7.9. Как я могу это изменить?
Ответы:
Просто установите переменную окружения:
export PYSPARK_PYTHON=python3
если вы хотите, чтобы это было постоянное изменение, добавьте эту строку в скрипт pyspark.
export PYSPARK_PYTHON=python3.5
Python 3.5
$SPARK_HOME/conf/spark-env.sh
чтобы spark-submit
использовать тот же интерпретатор.
PYSPARK_PYTHON=python3
./bin/pyspark
Если вы хотите запустить IPython Notebook, напишите:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
Если python3
недоступен, вам нужно вместо этого указать путь к нему.
Имейте в виду, что текущая документация (начиная с версии 1.4.1) содержит устаревшие инструкции. К счастью, он был исправлен .
Загляните в файл. Строка shebang, вероятно, указывает на двоичный файл env, который ищет путь к первому совместимому исполняемому файлу.
Вы можете изменить python на python3. Измените env, чтобы напрямую использовать жестко запрограммированный двоичный файл python3. Или выполните двоичный файл напрямую с помощью python3 и опустите строку shebang.
PYSPARK_PYTHON
переменной окружения.
Для Jupyter Notebook отредактируйте spark-env.sh
файл, как показано ниже, из командной строки.
$ vi $SPARK_HOME/conf/spark-env.sh
Перейдите в конец файла и скопируйте и вставьте эти строки
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
Затем просто запустите следующую команду, чтобы запустить pyspark в записной книжке
$ pyspark
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
в этом случае он запускает ноутбук IPython 3.