Вот семь шагов, чтобы установить Spark в Windows 10 и запустить его с Python:
Шаг 1. Загрузите файл tar (архив ленты) gz spark 2.2.0 в любую папку F по этой ссылке - https://spark.apache.org/downloads.html . Разархивируйте его и скопируйте распакованную папку в желаемую папку A. Переименуйте папку spark-2.2.0-bin-hadoop2.7 в spark.
Пусть путь к папке искры будет C: \ Users \ Desktop \ A \ spark
Шаг 2: загрузите tar gz-файл hardoop 2.7.3 в ту же папку F по этой ссылке - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Разархивируйте его и скопируйте распакованную папку в ту же папку A. Переименуйте папку с Hadoop-2.7.3.tar в hadoop. Пусть путь к папке hadoop будет C: \ Users \ Desktop \ A \ hadoop
Шаг 3: Создайте новый текстовый файл блокнота. Сохраните этот пустой файл блокнота как winutils.exe (с типом Сохранить как: Все файлы). Скопируйте этот файл winutils.exe размером O КБ в папку bin в Spark - C: \ Users \ Desktop \ A \ spark \ bin
Шаг 4: Теперь мы должны добавить эти папки в Системную среду.
4a: Создайте системную переменную (не пользовательскую переменную, поскольку пользовательская переменная будет наследовать все свойства системной переменной) Имя переменной: SPARK_HOME Значение переменной: C: \ Users \ Desktop \ A \ spark
Найдите системную переменную Path и нажмите Edit. Вы увидите несколько путей. Не удаляйте ни один из путей. Добавьте это значение переменной -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Создайте системную переменную
Имя переменной: HADOOP_HOME Значение переменной: C: \ Users \ Desktop \ A \ hadoop
Найдите системную переменную Path и нажмите Edit. Добавьте это значение переменной -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Создайте системную переменную Имя переменной: JAVA_HOME Поиск Java в Windows. Щелкните правой кнопкой мыши и выберите расположение открытого файла. Вам нужно будет снова щелкнуть правой кнопкой мыши любой из java-файлов и щелкнуть местоположение открытого файла. Вы будете использовать путь к этой папке. ИЛИ вы можете выполнить поиск по C: \ Program Files \ Java. Моя версия Java, установленная в системе, - jre1.8.0_131. Значение переменной: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Найдите системную переменную Path и нажмите Edit. Добавьте это значение переменной -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Шаг 5: Откройте командную строку и перейдите в папку искрового бункера (введите cd C: \ Users \ Desktop \ A \ spark \ bin). Типа искровая гильза.
C:\Users\Desktop\A\spark\bin>spark-shell
Это может занять время и дать некоторые предупреждения. Наконец, появится надпись "Добро пожаловать в искру версии 2.2.0".
Шаг 6: Введите exit () или перезапустите командную строку и снова перейдите в папку искрового бункера. Тип pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Он будет показывать некоторые предупреждения и ошибки, но игнорировать их. Оно работает.
Шаг 7: Ваша загрузка завершена. Если вы хотите напрямую запустить искру из оболочки python, перейдите в раздел Scripts в папке python и введите
pip install findspark
в командной строке.
В оболочке Python
import findspark
findspark.init()
импортировать необходимые модули
from pyspark import SparkContext
from pyspark import SparkConf
Если вы хотите пропустить шаги по импорту findspark и его инициализации, следуйте процедуре, указанной в
импорте pyspark в оболочку python.