программирование apache-spark

15

Разница между DataFrame, Dataset и RDD в Spark

Мне просто интересно, в чем разница между RDDand и DataFrame (Spark 2.0.0 DataFrame - просто псевдоним типа Dataset[Row]) в Apache Spark? Можете ли вы преобразовать одно в другое?

258 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - repartition () против coalesce ()

По данным Learning Spark Имейте в виду, что перераспределение ваших данных является довольно дорогой операцией. Spark также имеет оптимизированную версию repartition()call, coalesce()которая позволяет избежать перемещения данных, но только если вы уменьшаете количество разделов RDD. Одно из различий, которое я получаю, заключается в том, что с repartition()количеством разделов можно увеличивать / …

254 apache-spark distributed-computing rdd

16

В чем разница между map и flatMap и хорошим вариантом использования для каждого?

Может кто-нибудь объяснить мне разницу между map и flatMap и каков хороший вариант использования для каждого? Что значит «сгладить результаты»? Для чего это?

249 apache-spark

12

Spark java.lang.OutOfMemoryError: пространство кучи Java

Мой кластер: 1 ведущий, 11 ведомых, каждый узел имеет 6 ГБ памяти. Мои настройки: spark.executor.memory=4g, Dspark.akka.frameSize=512 Вот проблема: Сначала я прочитал некоторые данные (2,19 ГБ) из HDFS в RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Во-вторых , сделайте что-нибудь на этом RDD: val res = imageBundleRDD.map(data => { val desPoints = threeDReconstruction(data._2, …

228 out-of-memory apache-spark

7

Задача не сериализуема: java.io.NotSerializableException при вызове функции вне замыкания только для классов, а не объектов

Странное поведение при вызове функции вне замыкания: когда функция находится в объекте, все работает когда функция находится в классе get: Задача не сериализуема: java.io.NotSerializableException: тестирование Проблема в том, что мне нужен мой код в классе, а не объект. Есть идеи, почему это происходит? Сериализуется ли объект Scala (по умолчанию?)? Это …

224 scala serialization apache-spark typesafe

2

Что такое рабочие, исполнители, ядра в кластере Spark Standalone?

Я прочитал обзор режима кластера и до сих пор не могу понять различные процессы в автономном кластере Spark и параллелизм. Рабочий процесс JVM или нет? Я запустил bin\start-slave.shи обнаружил, что он породил рабочего, который на самом деле является JVM. Согласно приведенной выше ссылке, исполнитель - это процесс, запускаемый для приложения …

219 apache-spark distributed-computing

13

Как отобразить содержимое полного столбца в кадре данных Spark?

Я использую spark-CSV для загрузки данных в DataFrame. Я хочу сделать простой запрос и отобразить содержимое: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col кажется усеченным: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …

205 apache-spark dataframe spark-csv output-formatting

5

В чем разница между кешем и персистом?

С точки зрения RDDнастойчивости, каковы различия между cache()и persist()в искре?

202 apache-spark distributed-computing rdd

13

Как изменить имена столбцов данных в pyspark?

Я пришел из пандского фона и привык читать данные из CSV-файлов в информационном кадре, а затем просто менять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list Однако то же самое не работает в фреймах данных pyspark, созданных с использованием sqlContext. Единственное решение, которое я мог найти, …

201 python apache-spark pyspark pyspark-sql

8

Apache Spark: количество ядер и количество исполнителей

Я пытаюсь понять взаимосвязь количества ядер и количества исполнителей при запуске задания Spark на YARN. Тестовая среда выглядит следующим образом: Количество узлов данных: 3 Спецификация машины узла данных: Процессор: Core i7-4790 (количество ядер: 4, количество потоков: 8) Оперативная память: 32 ГБ (8 ГБ х 4) HDD: 8 ТБ (2 ТБ …

195 hadoop apache-spark yarn

20

Как остановить отображение сообщений INFO на спарк-консоли?

Я хотел бы остановить различные сообщения, которые приходят на спарк-оболочку. Я попытался отредактировать log4j.propertiesфайл, чтобы остановить это сообщение. Вот содержимое log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose …

181 apache-spark log4j spark-submit

10

Как прочитать несколько текстовых файлов в одном RDD?

Я хочу прочитать несколько текстовых файлов из местоположения hdfs и выполнить сопоставление с ним в итерации, используя spark. JavaRDD<String> records = ctx.textFile(args[1], 1); способен читать только один файл за раз. Я хочу прочитать более одного файла и обработать их как один RDD. Как?

179 apache-spark

2

Спарк производительности для Scala против Python

Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам. Исходя из этого предположения, я подумал изучить и написать Scala-версию очень распространенного кода предварительной обработки для 1 ГБ данных. Данные взяты …

178 scala performance apache-spark pyspark rdd

5

(Почему) нам нужно вызвать кэш или сохранить на RDD

Когда эластичный распределенный набор данных (RDD) создается из текстового файла или коллекции (или из другого RDD), нужно ли явно вызывать «cache» или «persist» для сохранения данных RDD в памяти? Или данные СДР по умолчанию хранятся в памяти распределенным способом? val textFile = sc.textFile("/user/emp.txt") Насколько я понимаю, после вышеуказанного шага textFile …

171 scala apache-spark rdd

6

Добавить баночки в Spark Job - spark-submit

Правда ... это обсуждалось довольно много. Однако есть много двусмысленности и некоторые ответы предоставлены ... включая дублирование ссылок на jar в конфигурации или опциях jars / executor / driver. Двусмысленные и / или опущенные детали Следуя двусмысленности, неясные и / или пропущенные детали должны быть разъяснены для каждого варианта: Как …

158 java scala apache-spark jar spark-submit

Вопросы с тегом «apache-spark»