Вопросы с тегом «missing-data»

При наличии данных недостает информации (пробелы), т. Е. Не являются полными. Следовательно, важно учитывать эту особенность при выполнении анализа или теста.

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

7
Почему Random Forest не обрабатывает пропущенные значения в предикторах?
Каковы теоретические причины не обрабатывать пропущенные значения? Машины повышения градиента, деревья регрессии обрабатывают пропущенные значения. Почему Случайный Лес не делает это?

3
Соответствие показателя склонности после многократного вменения
Я ссылаюсь на этот документ: Хейс JR, Groner JI. «Использование нескольких показателей вменения и склонности для проверки влияния автомобильных сидений и ремней безопасности на тяжесть травм на основании данных реестра травм». J Pediatr Surg. Май 2008 года; 43 (5): 924-7. В этом исследовании была проведена множественная импутация для получения 15 …

5
Почему некоторые люди используют -999 или -9999 для замены пропущенных значений?
У меня есть набор данных. Есть много пропущенных значений. Для некоторых столбцов отсутствующее значение было заменено на -999, но для других столбцов отсутствующее значение было отмечено как «NA». Почему мы используем -999 для замены отсутствующего значения?

3
Как R обрабатывает пропущенные значения в lm?
Я хотел бы регрессировать вектор B против каждого из столбцов в матрице A. Это тривиально, если нет пропущенных данных, но если матрица A содержит пропущенные значения, тогда моя регрессия против A ограничена включением только тех строк, где все значения присутствуют ( поведение na.omit по умолчанию ). Это приводит к неправильным …

3
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная Y является фактором. В моем наборе данных …

3
R карета и НС
Я очень предпочитаю каретку из-за ее способности к настройке параметров и унифицированного интерфейса, но я заметил, что для этого всегда требуются полные наборы данных (то есть без NA), даже если применяемая «голая» модель допускает NA. Это очень утомительно, так как нужно применять трудоемкие методы вменения, которые не нужны в первую …

5
Алгоритмы машинного обучения для обработки недостающих данных
Я пытаюсь разработать прогностическую модель, используя многомерные клинические данные, включая лабораторные данные. Пространство данных невелико с 5 тыс. Выборок и 200 переменных. Идея состоит в том, чтобы ранжировать переменные, используя метод выбора признаков (IG, RF и т. Д.), И использовать функции высшего ранга для разработки прогнозной модели. В то время …

2
Почему алгоритм максимизации ожидания гарантированно сходится к локальному оптимуму?
Я прочитал несколько объяснений алгоритма EM (например, из Бишопа «Распознавание образов и машинное обучение» и из «Первого курса по машинному обучению» Роджера и Джеролами). Вывод ЭМ в порядке, я понимаю это. Я также понимаю, почему алгоритм охватывает что-то: на каждом шаге мы улучшаем результат, и вероятность ограничена 1,0, поэтому, используя …

4
Оценка максимального правдоподобия EM для распределения Вейбулла
Примечание: я отправляю вопрос от моего бывшего студента, который не может публиковать сообщения самостоятельно по техническим причинам. Для данного iid образца Икс1, … , ХNИкс1,...,ИксNx_1,\ldots,x_n из распределения Вейбулла pdf еК( х ) = к хк - 1е- хКх > 0еК(Икс)знак равноКИксК-1е-ИксКИкс>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 есть ли …

4
Вменение недостающих значений для PCA
Я использовал эту prcomp()функцию для выполнения PCA (анализа главных компонентов) в R. Однако в этой функции есть ошибка, из-за которой na.actionпараметр не работает. Я попросил помощи по stackoverflow ; два пользователя предложили два разных способа работы со NAзначениями. Однако проблема обоих решений заключается в том, что при наличии NAзначения эта …

1
Как алгоритмы обучения дерева решений справляются с отсутствующими значениями (под капотом)
Какие методы используют алгоритмы обучения дерева решений для обработки пропущенных значений. Они просто заполняют слот при использовании значения, называемого отсутствующим? Благодарю.

5
Статистический подход для определения случайного отсутствия данных
У меня есть большой набор векторов признаков, которые я буду использовать для решения проблемы бинарной классификации (используя scikit learn в Python). Прежде чем я начну думать о вменении, мне интересно попытаться определить по оставшимся частям данных, пропущены ли данные «случайно» или «не случайно». Какой разумный способ подойти к этому вопросу? …

2
Как я могу объединить апостериорные средства и достоверные интервалы после многократного вменения?
Я использовал множественное вменение для получения ряда завершенных наборов данных. Я использовал байесовские методы на каждом из законченных наборов данных, чтобы получить апостериорные распределения для параметра (случайный эффект). Как я могу объединить / объединить результаты для этого параметра? Больше контекста: Моя модель является иерархической в ​​смысле отдельных учеников (одно наблюдение …

1
Разница между отсутствующими данными и разреженными данными в алгоритмах машинного обучения
Каковы основные различия между разреженными данными и отсутствующими данными? И как это влияет на машинное обучение? В частности, как редкие и отсутствующие данные влияют на алгоритмы классификации и регрессионные (прогнозирующие числа) типы алгоритмов. Я говорю о ситуации, когда процент пропущенных данных значителен, и мы не можем удалить строки, содержащие пропущенные …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.