Вопросы с тегом «apache-spark-sql»

Apache Spark SQL - это инструмент для «обработки SQL и структурированных данных» в Spark, быстрой и универсальной кластерной вычислительной системе. Его можно использовать для извлечения данных из Hive, Parquet и т. Д. И выполнения SQL-запросов по существующим RDD и Datasets.

5
Spark DataFrame groupBy и сортировка в порядке убывания (pyspark)
Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но это вызывает следующую ошибку. sort() got an unexpected keyword argument 'ascending'

9
Извлечь значения столбцов Dataframe как список в Apache Spark
Я хочу преобразовать строковый столбец фрейма данных в список. В DataframeAPI я могу найти RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArrayфункцию к RDD. В этом случае длина и SQL работают нормально. Однако результат, который я получил от RDD, заключен в квадратные скобки вокруг …


10
Spark Dataframe различает столбцы с повторяющимся именем
Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, …

6
Преобразование строки pyspark в формат даты
У меня есть дата-фрейм pyspark со строковым столбцом в формате, MM-dd-yyyyи я пытаюсь преобразовать его в столбец даты. Я старался: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() и я получаю строку нулей. Кто-нибудь может помочь?

1
Запись более 50 миллионов из Pyspark df в PostgresSQL, лучший эффективный подход
Какой самый эффективный способ вставить миллионы записей, скажем, 50 миллионов из фрейма данных Spark в таблицы Postgres. В прошлом я делал это от spark до MSSQL, используя опцию массового копирования и размера пакета, которая также была успешной. Есть ли что-то подобное, что может быть здесь для Postgres? Добавляем код, который …

1
Spark: UDF исполняется много раз
У меня есть датафрейм со следующим кодом: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Теперь, проверяя журналы, я обнаружил, что для каждой строки UDF выполняется 3 раза. …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.