Вопросы с тегом «apache-spark»

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, который предоставляет унифицированный API и распределенные наборы данных пользователям. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

1
В какой ситуации я могу использовать Dask вместо Apache Spark? [закрыто]
Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы на него можно было ответить с помощью фактов и цитат, отредактировав этот пост . Закрыт 4 года назад . Уточните этот вопрос В настоящее время я использую Pandas …

15
Как связать PyCharm с PySpark?
Я новичок в apache spark, и, по-видимому, я установил apache-spark с homebrew в свой macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. …

6
Преобразование строки pyspark в формат даты
У меня есть дата-фрейм pyspark со строковым столбцом в формате, MM-dd-yyyyи я пытаюсь преобразовать его в столбец даты. Я старался: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() и я получаю строку нулей. Кто-нибудь может помочь?

8
Как предотвратить java.lang.OutOfMemoryError: PermGen space при компиляции Scala?
Я заметил странное поведение моего компилятора scala. Иногда при компиляции класса возникает ошибка OutOfMemoryError. Вот сообщение об ошибке: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Это случается только время от времени, и ошибка обычно не возникает при последующем запуске компиляции. …

5
Вычислить среднюю скорость дороги [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он фокусировался только на одной проблеме, отредактировав этот пост. . Закрыто 4 дня назад . Я пошел на собеседование по работе с инженером данных Интервьюер задал мне …

2
Тупик, когда одновременно запланировано много рабочих мест
Использование spark 2.4.4 в кластерном режиме YARN с планировщиком FIFO spark. Я отправляю несколько операций с пламенем в dataframe (т.е. записываю данные в S3), используя исполнителя пула потоков с переменным числом потоков. Это работает нормально, если у меня ~ 10 потоков, но если я использую сотни потоков, то, по-видимому, возникает …

2
Spark: Почему Python значительно превосходит Scala в моем случае использования?
Чтобы сравнить производительность Spark при использовании Python и Scala, я создал одно и то же задание на обоих языках и сравнил время выполнения. Я ожидал, что обе работы займут примерно одинаковое количество времени, но работа с Python заняла только одно, а работа с 27minScala - 37minпочти на 40% дольше! Я …

1
Запись более 50 миллионов из Pyspark df в PostgresSQL, лучший эффективный подход
Какой самый эффективный способ вставить миллионы записей, скажем, 50 миллионов из фрейма данных Spark в таблицы Postgres. В прошлом я делал это от spark до MSSQL, используя опцию массового копирования и размера пакета, которая также была успешной. Есть ли что-то подобное, что может быть здесь для Postgres? Добавляем код, который …

3
Как исправить ошибку «TypeError: требуется целое число (получено байтов типа)» при попытке запустить pyspark после установки spark 2.4.4
Я установил OpenJDK 13.0.1 и python 3.8 и спарк 2.4.4. Инструкция по проверке установки заключается в запуске. \ Bin \ pyspark из корня установки spark. Я не уверен, что пропустил какой-то шаг в установке spark, например, установил какую-то переменную окружения, но не могу найти более подробных инструкций. Я могу запустить …

1
pandasUDF и пиарроу 0.15.0
Недавно я начал получать кучу ошибок на ряде pysparkзаданий, работающих на кластерах EMR. Ошибки java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Все они, кажется, происходят в applyфункциях серии …

1
Apache Spark: влияние перераспределения, сортировки и кэширования на соединение
Я исследую поведение Спарка, когда присоединяю стол к себе. Я использую Databricks. Мой глупый сценарий: Прочитать внешнюю таблицу как фрейм данных A (лежащие в основе файлы в дельта-формате) Определите фрейм данных B как фрейм данных A с выбранными только определенными столбцами Соедините кадры данных A и B в столбце 1 …

3
Применение функции Python к сгруппированной в DataFrame группе Pandas - какой наиболее эффективный подход для ускорения вычислений?
Я имею дело с довольно большим Pandas DataFrame - мой набор данных похож на следующую dfнастройку: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # …

1
Spark: UDF исполняется много раз
У меня есть датафрейм со следующим кодом: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Теперь, проверяя журналы, я обнаружил, что для каждой строки UDF выполняется 3 раза. …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.