Вопросы с тегом «apache-spark»

3
Объединение нескольких фреймов данных построчно в PySpark
У меня есть 10 фреймов данных pyspark.sql.dataframe.DataFrame, полученных randomSplitкак. (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Теперь я хочу объединить 9 tdфреймов в один фрейм данных, как мне это сделать? Я уже пробовал с …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
Как рассчитать среднее значение столбца данных и найти верхние 10%
Я очень новичок в Scala и Spark и работаю над некоторыми самостоятельными упражнениями, используя бейсбольную статистику. Я использую класс наблюдений, создаю RDD и назначаю схему данным, а затем превращаю ее в DataFrame, чтобы я мог использовать SparkSQL для выбора групп игроков по их статистике, которая соответствует определенным критериям. Как только …

3
Заменить все числовые значения в фрейме данных pyspark на постоянное значение
Рассмотрим фрейм данных pyspark, состоящий из нулевых и числовых элементов. Как правило, числовые элементы имеют разные значения. Как можно заменить все числовые значения кадра данных постоянным числовым значением (например, значением 1)? Заранее спасибо! Пример для фрейма данных pyspark: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & …

3
Проблема с IPython / Jupyter на Spark (Нераспознанный псевдоним)
Я работаю над настройкой набора виртуальных машин для экспериментов со Spark, прежде чем потратить деньги и потратить деньги на создание кластера с некоторым оборудованием. Краткое примечание: я академик с опытом работы в области прикладного машинного обучения и немного бросил работу в науке о данных. Я использую инструменты для вычислений, редко …

2
Как преобразовать категориальные данные в числовые данные в Pyspark
Я использую ноутбук Ipython для работы с приложениями pyspark. У меня есть файл CSV с множеством категориальных столбцов, чтобы определить, находится ли доход ниже или выше диапазона 50 КБ. Я хотел бы выполнить алгоритм классификации, используя все входные данные для определения диапазона доходов. Мне нужно создать словарь переменных для сопоставленных …

1
Spark ALS: рекомендация для новых пользователей
Вопрос Как я могу предсказать рейтинг нового пользователя в модели ALS, обученной в Spark? (Новое = не видно во время тренировки) Проблема Я следую официальному учебнику Spark ALS здесь: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Я могу построить хороший рекомендатель с приличным MSE, но я борюсь с тем, как вводить новые данные в модель. Учебник …

1
Анализ логов сервера с использованием машинного обучения
Мне было поручено проанализировать журналы сервера нашего приложения, которые содержат журналы исключений, журналы событий журналов базы данных и т. Д. Я новичок в машинном обучении, мы используем Spark с упругим поиском и Sparks MLlib (или PredictionIO). Пример желаемого В результате можно было бы прогнозировать на основе собранных журналов исключений, чтобы …

1
Искра, оптимально разделяющая один RDD на два
У меня есть большой набор данных, который мне нужно разделить на группы в соответствии с конкретными параметрами. Я хочу, чтобы работа выполнялась максимально эффективно. Я могу представить два способа сделать это Вариант 1 - Создать карту из оригинального СДР и отфильтровать def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.