программирование apache-spark

6

Переименование имен столбцов DataFrame в Spark Scala

Я пытаюсь преобразовать все заголовки / имена столбцов DataFrameв Spark-Scala. на данный момент я придумываю следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

12

java.io.IOException: не удалось найти исполняемый файл null \ bin \ winutils.exe в двоичных файлах Hadoop. Spark Eclipse на Windows 7

Я не могу выполнить простую sparkработу в Scala IDE(проекте Maven Spark), установленном наWindows 7 Добавлена зависимость ядра Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Ошибка: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed …

92 eclipse scala apache-spark

10

Может ли Apache Spark работать без HADOOP?

Есть ли зависимости между Spark и Hadoop ? Если нет, то есть ли какие-то функции, которые я пропущу при запуске Spark без Hadoop ?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame groupBy и сортировка в порядке убывания (pyspark)

Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но это вызывает следующую ошибку. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

8

Почему задания Spark завершаются сбоем из-за org.apache.spark.shuffle.MetadataFetchFailedException: отсутствует выходное расположение для перемешивания 0 в режиме предположений?

Я выполняю задание Spark в режиме предположений. У меня около 500 задач и около 500 сжатых файлов размером 1 ГБ gz. Я продолжаю выполнять каждую работу, для 1-2 задач, прикрепленную ошибку, где она повторяется впоследствии десятки раз (препятствуя завершению работы). org.apache.spark.shuffle.MetadataFetchFailedException: отсутствует выходное расположение для перемешивания 0 Есть идеи, в …

88 apache-spark

12

Ошибка искровой оболочки Mac при инициализации SparkContext

Я попытался запустить spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) в Mac OS Yosemite 10.10.5, используя "./bin/spark-shell". Ниже приведена ошибка. Я также пытался установить разные версии Spark, но у всех была одна и та же ошибка. Это второй раз, когда я запускаю Spark. Мой предыдущий запуск работает нормально. log4j:WARN No appenders could be found …

87 apache-spark

1

Что означает «Этап пропущен» в веб-интерфейсе Apache Spark?

Из моего пользовательского интерфейса Spark. Что значит пропущено?

87 apache-spark rdd

18

Как установить версию драйвера python в Spark?

Я использую spark 1.4.0-rc2, поэтому могу использовать python 3 с искрой. Если я добавлю export PYSPARK_PYTHON=python3в свой .bashrc файл, я могу запустить Spark в интерактивном режиме с помощью python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об ошибке: Exception: Python in worker has …

87 apache-spark pyspark

9

Извлечь значения столбцов Dataframe как список в Apache Spark

Я хочу преобразовать строковый столбец фрейма данных в список. В DataframeAPI я могу найти RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArrayфункцию к RDD. В этом случае длина и SQL работают нормально. Однако результат, который я получил от RDD, заключен в квадратные скобки вокруг …

86 scala apache-spark apache-spark-sql

11

Как сохранить DataFrame прямо в Hive?

Можно ли сохранить DataFrameв Spark прямо в Hive? Я попытался преобразовать DataFrameв Rddтекстовый файл, а затем сохранить его и загрузить в куст. Но мне интересно, могу ли я напрямую сохранить dataframeв улей

85 scala apache-spark hive apache-spark-sql

2

Как настроить номер исполнителя искры, количество ядер и память исполнителя?

Где вы начинаете настраивать вышеупомянутые параметры. Начнем ли мы с памяти исполнителя и получим количество исполнителей, или мы начнем с ядер и получим номер исполнителя. Я перешел по ссылке . Однако получил представление на высоком уровне, но все еще не уверен, как и с чего начать и прийти к окончательному …

84 apache-spark

8

Как передать параметр -D или переменную среды в задание Spark?

Я хочу изменить конфигурацию Typafe для задания Spark в среде dev / prod. Мне кажется, что самый простой способ добиться этого - перейти -Dconfig.resource=ENVNAMEна работу. Тогда библиотека конфигурации Typesafe сделает всю работу за меня. Есть ли способ передать эту возможность напрямую работе? Или, может быть, есть лучший способ изменить конфигурацию …

83 scala apache-spark

10

Spark Dataframe различает столбцы с повторяющимся именем

Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, …

83 python apache-spark dataframe pyspark apache-spark-sql

3

Как работает HashPartitioner?

Я прочитал документацию по HashPartitioner. К сожалению, ничего не было объяснено, кроме вызовов API. Я исхожу из предположения, что HashPartitionerраспределенный набор разбивается на разделы на основе хэша ключей. Например, если мои данные похожи на (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Таким образом, разделитель поместит это в разные разделы с одинаковыми …

82 scala apache-spark rdd partitioning

11

Ошибка Spark - неподдерживаемая основная версия файла класса

Я пытаюсь установить Spark на свой Mac. Я использовал самогон для установки Spark 2.4.0 и Scala. Я установил PySpark в свою среду anaconda и использую PyCharm для разработки. Я экспортировал в свой профиль bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH Однако я …

82 java python macos apache-spark pyspark

Вопросы с тегом «apache-spark»