программирование apache-spark

19

Это копия чьего-то другого вопроса на другом форуме, на который так и не ответили, поэтому я подумал, что снова задам его здесь, так как у меня такая же проблема. (См. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) У меня правильно установлен Spark на моем компьютере, и я могу без ошибок запускать программы python с модулями …

111 python apache-spark pyspark

12

Загрузите файл CSV с помощью Spark

Я новичок в Spark, и я пытаюсь прочитать данные CSV из файла с помощью Spark. Вот что я делаю: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Я ожидал, что этот вызов даст мне список двух первых столбцов моего файла, но я получаю эту ошибку: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: …

110 python csv apache-spark pyspark

13

Запишите один файл CSV с помощью spark-csv

Я использую https://github.com/databricks/spark-csv , я пытаюсь написать один CSV, но не могу, он создает папку. Нужна функция Scala, которая будет принимать такие параметры, как путь и имя файла, и записывать этот файл CSV.

110 scala csv apache-spark spark-csv

8

Как перезаписать выходной каталог в Spark

У меня есть приложение для потоковой передачи искр, которое создает набор данных каждую минуту. Мне нужно сохранить / перезаписать результаты обработанных данных. Когда я пытался перезаписать набор данных, org.apache.hadoop.mapred.FileAlreadyExistsException останавливает выполнение. Я установил свойство Spark set("spark.files.overwrite","true"), но безуспешно. Как перезаписать или удалить файлы из искры?

108 apache-spark

9

Преобразование столбца Spark DataFrame в список Python

Я работаю над фреймом данных с двумя столбцами, mvv и count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | Я хотел бы получить два списка, содержащие значения mvv и значение счета. Что-то типа mvv = …

107 python apache-spark pyspark spark-dataframe

10

Отфильтровать столбец фрейма данных Pyspark со значением None

Я пытаюсь отфильтровать фрейм данных PySpark, который имеет Noneзначение строки: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] и я могу правильно отфильтровать строковое значение: df[df.dt_mvmt == '2016-03-31'] # some results here но это не удается: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Но в каждой категории определенно есть свои …

105 python apache-spark dataframe pyspark apache-spark-sql

4

Запуск приложения Spark Kill

У меня есть работающее приложение Spark, где оно занимает все ядра, а другим моим приложениям не будет выделено никаких ресурсов. Я провел небольшое исследование, и люди предложили использовать YARN kill или / bin / spark-class, чтобы убить команду. Однако я использую версию CDH, а / bin / spark-class вообще не …

103 apache-spark yarn pyspark

14

Как проверить, пуст ли фрейм данных искры?

Прямо сейчас я должен использовать, df.count > 0чтобы проверить DataFrame, пуст или нет. Но это неэффективно. Есть ли лучший способ сделать это? Спасибо. PS: я хочу проверить, пуст ли он, чтобы я сохранял только, DataFrameесли он не пустой

102 apache-spark apache-spark-sql

5

как изменить столбец Dataframe с типа String на тип Double в pyspark

У меня есть dataframe со столбцом как String. Я хотел изменить тип столбца на тип Double в PySpark. Я сделал следующее: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотел знать, правильный ли это способ сделать это, поскольку при выполнении логистической регрессии я получаю некоторую ошибку, поэтому мне интересно, …

102 python apache-spark dataframe pyspark apache-spark-sql

14

Как загрузить локальный файл в sc.textFile вместо HDFS

Я следую отличному руководству по искрам поэтому я пытаюсь загрузить в 46:00:00, README.mdно не могу то, что я делаю, это: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) …

100 scala apache-spark

8

Как создать пустой DataFrame с указанной схемой?

Я хочу создать по DataFrameуказанной схеме в Scala. Я пробовал использовать чтение JSON (я имею в виду чтение пустого файла), но не думаю, что это лучшая практика.

100 scala apache-spark dataframe apache-spark-sql

10

Как настроить Spark в Windows?

Я пытаюсь настроить Apache Spark в Windows. Немного поискав, я понимаю, что мне нужен автономный режим. Какие двоичные файлы мне загрузить, чтобы запустить Apache Spark в Windows? Я вижу дистрибутивы с hadoop и cdh на странице загрузки Spark. У меня нет ссылок на это в сети. Мы высоко ценим пошаговое …

93 windows apache-spark

16

Spark - Ошибка «В конфигурации должен быть указан главный URL» при отправке приложения.

У меня есть приложение Spark, которое работает без проблем в локальном режиме, но имеет некоторые проблемы при отправке в кластер Spark. Сообщение об ошибке выглядит следующим образом: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at …

93 scala apache-spark

5

Apache Spark: как использовать pyspark с Python 3

Я собрал Spark 1.4 из мастера разработки GH, и сборка прошла нормально. Но когда я делаю это, bin/pysparkя получаю версию Python 2.7.9. Как я могу это изменить?

93 python python-3.x apache-spark

2

Что означают числа на индикаторе выполнения в Spark-Shell?

Что в моей искровой оболочке означают записи, подобные приведенным ниже, когда я выполняю функцию? [Stage7:===========> (14174 + 5) / 62500]

93 apache-spark

Вопросы с тегом «apache-spark»