Вопросы с тегом «apache-spark»

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, который предоставляет унифицированный API и распределенные наборы данных пользователям. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

23
Как я могу изменить типы столбцов в DataFrame Spark SQL?
Предположим, я делаю что-то вроде: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

8
Как хранить пользовательские объекты в наборе данных?
В соответствии с введением наборов данных Spark : В преддверии Spark 2.0 мы планируем несколько интересных улучшений в наборах данных, в частности: ... Пользовательские кодировщики - в то время как в настоящее время мы автоматически генерируем кодировщики для широкого спектра типов, мы хотели бы открыть API для пользовательских объектов. и …

3
Как этапы делятся на задачи в Spark?
Предположим, что в каждый момент времени выполняется только одно задание Spark. Что я получил до сих пор Вот что я понимаю в Spark: Когда SparkContextсоздается, каждый рабочий узел запускает исполнителя. Исполнители - это отдельные процессы (JVM), которые подключаются к программе драйвера. У каждого исполнителя есть баночка с программой драйвера. Выходя …
149 apache-spark 

15
Как отключить ведение журнала INFO в Spark?
Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу, используя bin/pysparkсценарий, чтобы добраться до подсказки искры, а также могу успешно выполнить Quick Start quide. Однако, хоть убей, я не могу понять, как остановить подробное INFOведение журнала после каждой команды. Я пробовал почти все возможные сценарии …

14
Spark - загрузить файл CSV как DataFrame?
Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

8
Как выбрать первый ряд каждой группы?
У меня есть DataFrame, сгенерированный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …


2
Как добавить постоянный столбец в DataFrame Spark?
Я хочу добавить столбец в DataFrameс произвольным значением (то же самое для каждой строки). Я получаю ошибку, когда использую withColumnследующее: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

6
Как отсортировать по столбцу в порядке убывания в Spark SQL?
Я пробовал, df.orderBy("col1").show(10)но сортировка по возрастанию. df.sort("col1").show(10)также сортирует в порядке убывания. Я посмотрел на stackoverflow, и все ответы, которые я нашел, были устаревшими или относились к RDD . Я хотел бы использовать собственный фрейм данных в Spark.

3
Apache Spark: карта против mapPartitions?
В чем разница между RDD map и mapPartitionsметодом? И ведет flatMapсебя как mapили нравитсяmapPartitions ? Спасибо. (править) то есть в чем разница (семантически или с точки зрения исполнения) между def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for …

5
Как определить разбиение DataFrame?
Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames в Scala, но не знаю, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, силимар к следующему примеру. Account Date Type Amount 1001 2014-04-01 Purchase …

9
Как добавить новый столбец в фрейм данных Spark (используя PySpark)?
У меня есть Spark DataFrame (с использованием PySpark 1.5.1), и я хотел бы добавить новый столбец. Я безуспешно пробовал следующее: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Также возникла ошибка при использовании этого: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Итак, …

12
Как установить память Apache Spark Executor
Как увеличить объем памяти, доступной для узлов исполнителя Apache Spark? У меня есть файл размером 2 ГБ, который подходит для загрузки в Apache Spark. На данный момент я запускаю apache spark на 1 машине, поэтому драйвер и исполнитель находятся на одной машине. В аппарате 8 ГБ памяти. Когда я пытаюсь …

10
Как распечатать содержимое RDD?
Я пытаюсь распечатать содержимое коллекции на консоли Spark. У меня тип: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] И я использую команду: scala> linesWithSessionId.map(line => println(line)) Но это напечатано: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] на карте по адресу: 19 Как мне записать RDD на консоль или сохранить его на диск, чтобы я …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.