Проблема с IPython / Jupyter на Spark (Нераспознанный псевдоним)


11

Я работаю над настройкой набора виртуальных машин для экспериментов со Spark, прежде чем потратить деньги и потратить деньги на создание кластера с некоторым оборудованием. Краткое примечание: я академик с опытом работы в области прикладного машинного обучения и немного бросил работу в науке о данных. Я использую инструменты для вычислений, редко мне нужно их настраивать.

Я создал 3 ВМ (1 мастер, 2 подчиненных) и успешно установил Spark. Кажется, все работает как надо. Моя проблема заключается в создании сервера Jupyter, к которому можно подключиться из браузера, не работающего на компьютере в кластере.

Я успешно установил ноутбук Jupyter ... и он работает. Я добавил новый профиль IPython для подключения к удаленному серверу с помощью Spark.

теперь проблема

Команда

$ ipython --profile=pyspark работает нормально, и он подключается к искровому кластеру. Однако,

$ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. по умолчанию это defaultпрофиль, а не pysparkпрофиль.

Конфигурация моего ноутбука для pyspark:

c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'


Может ли быть так, что следующее будет работать? $ ipython --profile=pyspark notebook? Возможно, проблема была только в порядке аргументов.
Габор Бакос

Ответы:


12

IPython теперь перешел на версию 4.0 , что означает, что если вы используете его, он будет считывать его конфигурацию ~/.jupyter, а не ~/.ipython. Вы должны создать новый файл конфигурации с

jupyter notebook --generate-config

а затем отредактируйте полученный ~/.jupyter/jupyter_notebook_config.pyфайл в соответствии с вашими потребностями.

Больше инструкций по установке здесь .


Я часто задавался вопросом, почему они сохранили команду ipython notebook для отделения jupyter от ipython. Именно поэтому это становится действительно запутанным. Спасибо вам и Кау Зш за указание на несоответствие профиля. Похоже, они должны использовать профиль ipython при использовании команды ipython notebook и профиль jupyter-notebook при использовании этой команды.
AN6U5

4

Предположим, что ваш файл конфигурации ~ / .ipython / profile_pyspark / ipython_notebook_config.py, вы все равно можете использовать этот файл конфигурации:

ipython notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

или же

jupyter-notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

1

Проблема в том, что pyspark по умолчанию не находится на пути OS sys. После нескольких неудачных попыток добавить его вручную в мои файлы конфигурации / пути / и т. Д. Я наткнулся на этот репозиторий GitHub под названием findspark.

https://github.com/minrk/findspark

Я клонирую этот репозиторий с помощью Git клон https://github.com/minrk/findspark.git

Затем я запустил «pip install findspark» из корня findspark.

Запустил блокнот Jupyter, создал новый блокнот Python3 и добавил

импорт findspark
импорт os
findspark.init ()
импорт pyspark
sc = pyspark.SparkContext ()

Перед findspark.init () импорт pyspark вернулся с ошибкой.

Чтобы проверить, я просто набрал sc и вернулся:
pyspark.context.SparkContext at 0x4526d30

Все работает на меня сейчас.


Добро пожаловать на сайт Анахита :)
Dawny33
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.