программирование apache-spark-sql

15

Разница между DataFrame, Dataset и RDD в Spark

Мне просто интересно, в чем разница между RDDand и DataFrame (Spark 2.0.0 DataFrame - просто псевдоним типа Dataset[Row]) в Apache Spark? Можете ли вы преобразовать одно в другое?

258 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

Как я могу изменить типы столбцов в DataFrame Spark SQL?

Предположим, я делаю что-то вроде: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

152 scala apache-spark apache-spark-sql

14

Spark - загрузить файл CSV как DataFrame?

Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

147 scala apache-spark hadoop apache-spark-sql hdfs

8

Как выбрать первый ряд каждой группы?

У меня есть DataFrame, сгенерированный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …

143 sql scala apache-spark dataframe apache-spark-sql

11

Как преобразовать объект rdd в фрейм данных в Spark

Как преобразовать RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) в Dataframe org.apache.spark.sql.DataFrame. Я преобразовал фрейм данных в rdd, используя .rdd. После обработки я хочу вернуть его в фрейм данных. Как я могу это сделать ?

143 scala apache-spark apache-spark-sql rdd

2

Как добавить постоянный столбец в DataFrame Spark?

Я хочу добавить столбец в DataFrameс произвольным значением (то же самое для каждой строки). Я получаю ошибку, когда использую withColumnследующее: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Как отсортировать по столбцу в порядке убывания в Spark SQL?

Я пробовал, df.orderBy("col1").show(10)но сортировка по возрастанию. df.sort("col1").show(10)также сортирует в порядке убывания. Я посмотрел на stackoverflow, и все ответы, которые я нашел, были устаревшими или относились к RDD . Я хотел бы использовать собственный фрейм данных в Spark.

137 scala apache-spark apache-spark-sql

5

Как определить разбиение DataFrame?

Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames в Scala, но не знаю, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, силимар к следующему примеру. Account Date Type Amount 1001 2014-04-01 Purchase …

129 scala apache-spark dataframe apache-spark-sql partitioning

9

Как добавить новый столбец в фрейм данных Spark (используя PySpark)?

У меня есть Spark DataFrame (с использованием PySpark 1.5.1), и я хотел бы добавить новый столбец. Я безуспешно пробовал следующее: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Также возникла ошибка при использовании этого: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Итак, …

129 python apache-spark dataframe pyspark apache-spark-sql

14

Объединение столбцов в Apache Spark DataFrame

Как объединить два столбца в фрейме данных Apache Spark? Есть ли в Spark SQL какая-либо функция, которую мы можем использовать?

117 sql apache-spark dataframe apache-spark-sql

10

Отфильтровать столбец фрейма данных Pyspark со значением None

Я пытаюсь отфильтровать фрейм данных PySpark, который имеет Noneзначение строки: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] и я могу правильно отфильтровать строковое значение: df[df.dt_mvmt == '2016-03-31'] # some results here но это не удается: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Но в каждой категории определенно есть свои …

105 python apache-spark dataframe pyspark apache-spark-sql

14

Как проверить, пуст ли фрейм данных искры?

Прямо сейчас я должен использовать, df.count > 0чтобы проверить DataFrame, пуст или нет. Но это неэффективно. Есть ли лучший способ сделать это? Спасибо. PS: я хочу проверить, пуст ли он, чтобы я сохранял только, DataFrameесли он не пустой

102 apache-spark apache-spark-sql

5

как изменить столбец Dataframe с типа String на тип Double в pyspark

У меня есть dataframe со столбцом как String. Я хотел изменить тип столбца на тип Double в PySpark. Я сделал следующее: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотел знать, правильный ли это способ сделать это, поскольку при выполнении логистической регрессии я получаю некоторую ошибку, поэтому мне интересно, …

102 python apache-spark dataframe pyspark apache-spark-sql

8

Как создать пустой DataFrame с указанной схемой?

Я хочу создать по DataFrameуказанной схеме в Scala. Я пробовал использовать чтение JSON (я имею в виду чтение пустого файла), но не думаю, что это лучшая практика.

100 scala apache-spark dataframe apache-spark-sql

6

Переименование имен столбцов DataFrame в Spark Scala

Я пытаюсь преобразовать все заголовки / имена столбцов DataFrameв Spark-Scala. на данный момент я придумываю следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

Вопросы с тегом «apache-spark-sql»