Вопросы с тегом «apache-spark»

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, который предоставляет унифицированный API и распределенные наборы данных пользователям. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.


13
Spark - repartition () против coalesce ()
По данным Learning Spark Имейте в виду, что перераспределение ваших данных является довольно дорогой операцией. Spark также имеет оптимизированную версию repartition()call, coalesce()которая позволяет избежать перемещения данных, но только если вы уменьшаете количество разделов RDD. Одно из различий, которое я получаю, заключается в том, что с repartition()количеством разделов можно увеличивать / …


12
Spark java.lang.OutOfMemoryError: пространство кучи Java
Мой кластер: 1 ведущий, 11 ведомых, каждый узел имеет 6 ГБ памяти. Мои настройки: spark.executor.memory=4g, Dspark.akka.frameSize=512 Вот проблема: Сначала я прочитал некоторые данные (2,19 ГБ) из HDFS в RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Во-вторых , сделайте что-нибудь на этом RDD: val res = imageBundleRDD.map(data => { val desPoints = threeDReconstruction(data._2, …

7
Задача не сериализуема: java.io.NotSerializableException при вызове функции вне замыкания только для классов, а не объектов
Странное поведение при вызове функции вне замыкания: когда функция находится в объекте, все работает когда функция находится в классе get: Задача не сериализуема: java.io.NotSerializableException: тестирование Проблема в том, что мне нужен мой код в классе, а не объект. Есть идеи, почему это происходит? Сериализуется ли объект Scala (по умолчанию?)? Это …

2
Что такое рабочие, исполнители, ядра в кластере Spark Standalone?
Я прочитал обзор режима кластера и до сих пор не могу понять различные процессы в автономном кластере Spark и параллелизм. Рабочий процесс JVM или нет? Я запустил bin\start-slave.shи обнаружил, что он породил рабочего, который на самом деле является JVM. Согласно приведенной выше ссылке, исполнитель - это процесс, запускаемый для приложения …

13
Как отобразить содержимое полного столбца в кадре данных Spark?
Я использую spark-CSV для загрузки данных в DataFrame. Я хочу сделать простой запрос и отобразить содержимое: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col кажется усеченным: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …


13
Как изменить имена столбцов данных в pyspark?
Я пришел из пандского фона и привык читать данные из CSV-файлов в информационном кадре, а затем просто менять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list Однако то же самое не работает в фреймах данных pyspark, созданных с использованием sqlContext. Единственное решение, которое я мог найти, …

8
Apache Spark: количество ядер и количество исполнителей
Я пытаюсь понять взаимосвязь количества ядер и количества исполнителей при запуске задания Spark на YARN. Тестовая среда выглядит следующим образом: Количество узлов данных: 3 Спецификация машины узла данных: Процессор: Core i7-4790 (количество ядер: 4, количество потоков: 8) Оперативная память: 32 ГБ (8 ГБ х 4) HDD: 8 ТБ (2 ТБ …

20
Как остановить отображение сообщений INFO на спарк-консоли?
Я хотел бы остановить различные сообщения, которые приходят на спарк-оболочку. Я попытался отредактировать log4j.propertiesфайл, чтобы остановить это сообщение. Вот содержимое log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose …

10
Как прочитать несколько текстовых файлов в одном RDD?
Я хочу прочитать несколько текстовых файлов из местоположения hdfs и выполнить сопоставление с ним в итерации, используя spark. JavaRDD<String> records = ctx.textFile(args[1], 1); способен читать только один файл за раз. Я хочу прочитать более одного файла и обработать их как один RDD. Как?
179 apache-spark 

2
Спарк производительности для Scala против Python
Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам. Исходя из этого предположения, я подумал изучить и написать Scala-версию очень распространенного кода предварительной обработки для 1 ГБ данных. Данные взяты …

5
(Почему) нам нужно вызвать кэш или сохранить на RDD
Когда эластичный распределенный набор данных (RDD) создается из текстового файла или коллекции (или из другого RDD), нужно ли явно вызывать «cache» или «persist» для сохранения данных RDD в памяти? Или данные СДР по умолчанию хранятся в памяти распределенным способом? val textFile = sc.textFile("/user/emp.txt") Насколько я понимаю, после вышеуказанного шага textFile …
171 scala  apache-spark  rdd 

6
Добавить баночки в Spark Job - spark-submit
Правда ... это обсуждалось довольно много. Однако есть много двусмысленности и некоторые ответы предоставлены ... включая дублирование ссылок на jar в конфигурации или опциях jars / executor / driver. Двусмысленные и / или опущенные детали Следуя двусмысленности, неясные и / или пропущенные детали должны быть разъяснены для каждого варианта: Как …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.