Вопросы с тегом «data-imputation»

Относится к общему классу методов, используемых для «заполнения» отсутствующих данных. Методы, используемые для этого, обычно связаны с интерполяцией (http://en.wikipedia.org/wiki/Interpolation) и требуют предположений о том, почему данные отсутствуют (например, «отсутствуют случайно»).

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R карета и НС
Я очень предпочитаю каретку из-за ее способности к настройке параметров и унифицированного интерфейса, но я заметил, что для этого всегда требуются полные наборы данных (то есть без NA), даже если применяемая «голая» модель допускает NA. Это очень утомительно, так как нужно применять трудоемкие методы вменения, которые не нужны в первую …

4
Вменение недостающих значений для PCA
Я использовал эту prcomp()функцию для выполнения PCA (анализа главных компонентов) в R. Однако в этой функции есть ошибка, из-за которой na.actionпараметр не работает. Я попросил помощи по stackoverflow ; два пользователя предложили два разных способа работы со NAзначениями. Однако проблема обоих решений заключается в том, что при наличии NAзначения эта …

3
Как объединить доверительные интервалы для дисперсионного компонента модели смешанных эффектов при использовании множественного вменения
Логика множественного вменения (МИ) состоит в том, чтобы вменять пропущенные значения не один раз, а несколько (обычно М = 5) раз, что приводит к М завершенным наборам данных. Затем M завершенных наборов данных анализируются с использованием методов полных данных, на которых M оценок и их стандартные ошибки объединяются с использованием …

5
Шестой вариант ответа («Я не знаю») был добавлен к 5-балльной шкале Лайкерта. Данные потеряны?
Мне нужна небольшая помощь в сборе данных из вопросника. Один из моих коллег применил вопросник, но по неосторожности, вместо того, чтобы использовать оригинальную 5-балльную шкалу Лайкерта (категорически не согласен, чтобы полностью согласиться), он вставил 6-й ответ в шкалу. И, что еще хуже, 6-й вариант ответа: «Я не знаю». Проблема заключается …

2
Как заполнить недостающие данные во временных рядах?
У меня есть большой набор данных о загрязнении, который регистрируется каждые 10 минут в течение двух лет, однако в этих данных есть ряд пробелов (в том числе некоторые, которые проводятся по несколько недель за раз). Данные кажутся довольно сезонными, и в течение дня наблюдаются большие различия по сравнению с ночью, …

1
Объединение калибровочных участков после многократного вменения
Я хотел бы получить совет по объединению калибровочных графиков / статистики после многократного вменения. В условиях разработки статистических моделей для прогнозирования будущего события (например, с использованием данных из больничных записей для прогнозирования выживаемости или событий после выписки из больницы) можно предположить, что существует некоторая или много недостающей информации. Множественное вменение …

3
Методы решения проблемы пропущенных данных в машинном обучении
Практически в любой базе данных, в которой мы хотим делать прогнозы с использованием алгоритмов машинного обучения, найдутся пропущенные значения для некоторых характеристик. Существует несколько подходов к решению этой проблемы, чтобы исключить строки с пропущенными значениями, пока они не заполнятся средними значениями признаков. Я хотел бы использовать для несколько более надежного …

5
КНН импутации R пакетов
Я ищу пакет вменения KNN. Я искал пакет вменения ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), но по какой-то причине вменяемая функция KNN (даже если следовать примеру из описания) только кажется вменять нулевые значения (согласно ниже). Я оглядывался по сторонам, но пока не могу что-то найти, и поэтому задавался вопросом, есть ли у кого-нибудь …

2
используя информацию о соседях при вменении данных или находке вне данных (в R)
У меня есть набор данных с предположением, что ближайшие соседи являются лучшими предикторами. Просто прекрасный пример визуализации двухстороннего градиента Предположим, у нас есть случай, когда несколько значений отсутствуют, мы можем легко предсказать на основе соседей и тренда. Соответствующая матрица данных в R (фиктивный пример для тренировки): miss.mat <- matrix (c(5:11, …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Использование фильтров Калмана для расчета недостающих значений во временных рядах
Меня интересует, как фильтры Калмана могут использоваться для расчета отсутствующих значений в данных временных рядов. Это также применимо, если отсутствуют некоторые последовательные моменты времени? Я не могу найти много по этой теме. Любые объяснения, комментарии и ссылки приветствуются и приветствуются!

1
XGBoost может обрабатывать недостающие данные на этапе прогнозирования
Недавно я рассмотрел алгоритм XGBoost и заметил, что этот алгоритм может обрабатывать недостающие данные (не требуя вменения) на этапе обучения. Мне было интересно, может ли XGboost обрабатывать недостающие данные (не требуя вменения), когда он используется для прогнозирования новых наблюдений или необходимо вменять недостающие данные. Заранее спасибо.

4
Как справиться с отсутствующими значениями, чтобы подготовить данные для выбора функции с помощью LASSO?
Моя ситуация: небольшой размер выборки: 116 двоичная переменная результата длинный список объясняющих переменных: 44 объясняющие переменные не исходили из головы; их выбор был основан на литературе. В большинстве случаев в выборке и в большинстве переменных отсутствуют значения. Подход к выбору функции выбран: LASSO Пакет R glmnet не позволит мне запустить …

3
В чем преимущество вменения перед построением нескольких моделей в регрессии?
Интересно, может ли кто-нибудь дать некоторое представление о том, является ли лучше объяснение почему отсутствующие данные, чем простое построение различных моделей для случаев с отсутствующими данными. Особенно в случае [обобщенных] линейных моделей (возможно, я вижу, что в нелинейных случаях все иначе) Предположим, у нас есть базовая линейная модель: Y= β1Икс1+ …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.