Вопросы с тегом «apache-spark»

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, который предоставляет унифицированный API и распределенные наборы данных пользователям. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

6
Переименование имен столбцов DataFrame в Spark Scala
Я пытаюсь преобразовать все заголовки / имена столбцов DataFrameв Spark-Scala. на данный момент я придумываю следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

12
java.io.IOException: не удалось найти исполняемый файл null \ bin \ winutils.exe в двоичных файлах Hadoop. Spark Eclipse на Windows 7
Я не могу выполнить простую sparkработу в Scala IDE(проекте Maven Spark), установленном наWindows 7 Добавлена ​​зависимость ядра Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Ошибка: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed …


5
Spark DataFrame groupBy и сортировка в порядке убывания (pyspark)
Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но это вызывает следующую ошибку. sort() got an unexpected keyword argument 'ascending'

8
Почему задания Spark завершаются сбоем из-за org.apache.spark.shuffle.MetadataFetchFailedException: отсутствует выходное расположение для перемешивания 0 в режиме предположений?
Я выполняю задание Spark в режиме предположений. У меня около 500 задач и около 500 сжатых файлов размером 1 ГБ gz. Я продолжаю выполнять каждую работу, для 1-2 задач, прикрепленную ошибку, где она повторяется впоследствии десятки раз (препятствуя завершению работы). org.apache.spark.shuffle.MetadataFetchFailedException: отсутствует выходное расположение для перемешивания 0 Есть идеи, в …

12
Ошибка искровой оболочки Mac при инициализации SparkContext
Я попытался запустить spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) в Mac OS Yosemite 10.10.5, используя "./bin/spark-shell". Ниже приведена ошибка. Я также пытался установить разные версии Spark, но у всех была одна и та же ошибка. Это второй раз, когда я запускаю Spark. Мой предыдущий запуск работает нормально. log4j:WARN No appenders could be found …


18
Как установить версию драйвера python в Spark?
Я использую spark 1.4.0-rc2, поэтому могу использовать python 3 с искрой. Если я добавлю export PYSPARK_PYTHON=python3в свой .bashrc файл, я могу запустить Spark в интерактивном режиме с помощью python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об ошибке: Exception: Python in worker has …

9
Извлечь значения столбцов Dataframe как список в Apache Spark
Я хочу преобразовать строковый столбец фрейма данных в список. В DataframeAPI я могу найти RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArrayфункцию к RDD. В этом случае длина и SQL работают нормально. Однако результат, который я получил от RDD, заключен в квадратные скобки вокруг …


2
Как настроить номер исполнителя искры, количество ядер и память исполнителя?
Где вы начинаете настраивать вышеупомянутые параметры. Начнем ли мы с памяти исполнителя и получим количество исполнителей, или мы начнем с ядер и получим номер исполнителя. Я перешел по ссылке . Однако получил представление на высоком уровне, но все еще не уверен, как и с чего начать и прийти к окончательному …

8
Как передать параметр -D или переменную среды в задание Spark?
Я хочу изменить конфигурацию Typafe для задания Spark в среде dev / prod. Мне кажется, что самый простой способ добиться этого - перейти -Dconfig.resource=ENVNAMEна работу. Тогда библиотека конфигурации Typesafe сделает всю работу за меня. Есть ли способ передать эту возможность напрямую работе? Или, может быть, есть лучший способ изменить конфигурацию …

10
Spark Dataframe различает столбцы с повторяющимся именем
Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, …

3
Как работает HashPartitioner?
Я прочитал документацию по HashPartitioner. К сожалению, ничего не было объяснено, кроме вызовов API. Я исхожу из предположения, что HashPartitionerраспределенный набор разбивается на разделы на основе хэша ключей. Например, если мои данные похожи на (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Таким образом, разделитель поместит это в разные разделы с одинаковыми …

11
Ошибка Spark - неподдерживаемая основная версия файла класса
Я пытаюсь установить Spark на свой Mac. Я использовал самогон для установки Spark 2.4.0 и Scala. Я установил PySpark в свою среду anaconda и использую PyCharm для разработки. Я экспортировал в свой профиль bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH Однако я …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.