Вопросы с тегом «missing-data»

При наличии данных недостает информации (пробелы), т. Е. Не являются полными. Следовательно, важно учитывать эту особенность при выполнении анализа или теста.

1
Как обрабатываются значения NA в glm в R
У меня есть таблица данных T1, которая содержит почти тысячу переменных (V1) и около 200 миллионов точек данных. Данные редки, и большинство записей - NA. Каждый пункт данных имеет уникальный идентификатор и пару дат, чтобы отличить его от другого. У меня есть другая таблица T2, которая содержит отдельный набор переменных …

2
Множественное вложение для исходных переменных
У меня есть набор данных по сельскохозяйственным испытаниям. Моя переменная ответа - это соотношение ответов: log (лечение / контроль). Меня интересует, что опосредует разницу, поэтому я использую мета-регрессии RE (невзвешенные, потому что кажется довольно ясным, что величина эффекта не связана с дисперсией оценок). Каждое исследование сообщает урожай зерна, урожай биомассы …

3
Полная информация о максимальной вероятности пропущенных данных в R
Контекст : иерархическая регрессия с некоторыми отсутствующими данными. Вопрос : Как использовать оценку максимальной вероятности полной информации (FIML) для устранения пропущенных данных в R? Есть ли пакет, который вы бы порекомендовали, и каковы типичные шаги? Онлайн-ресурсы и примеры также будут очень полезны. PS : я социолог, который недавно начал использовать …

2
Как запустить анализ Порядковой Логистической Регрессии в R с обоими числовыми / категориальными значениями?
Базовые данные : у меня ~ 1000 человек помечены оценками: «1», «хорошо», «2», «средний» или «3» [плохо »- это те значения, которые я пытаюсь предсказать для людей в будущем , В дополнение к этому, у меня есть некоторая демографическая информация: пол (категориальный: M / F), возраст (числовой: 17-80) и раса …

2
Как рассчитать среднюю продолжительность приверженности вегетарианству, когда у нас есть только данные опросов о текущих вегетарианцах?
Была обследована случайная выборка населения. Их спросили, придерживаются ли они вегетарианской диеты. Если они ответили «да», их также попросили указать, как долго они питались вегетарианской диетой без перерыва. Я хочу использовать эти данные для расчета средней продолжительности приверженности вегетарианству. Другими словами, когда кто-то становится вегетарианцем, я хочу знать, что в …

2
Как заполнить недостающие данные во временных рядах?
У меня есть большой набор данных о загрязнении, который регистрируется каждые 10 минут в течение двух лет, однако в этих данных есть ряд пробелов (в том числе некоторые, которые проводятся по несколько недель за раз). Данные кажутся довольно сезонными, и в течение дня наблюдаются большие различия по сравнению с ночью, …

3
Использование пакета прогноза R с отсутствующими значениями и / или нерегулярными временными рядами
Я впечатлен forecastпакетом R , а также, например, zooпакетом для нерегулярных временных рядов и интерполяции пропущенных значений. Мое приложение находится в области прогнозирования трафика в колл-центре, поэтому данные о выходных (почти) всегда отсутствуют, что может быть легко обработано zoo. Кроме того, некоторые дискретные точки могут отсутствовать, я просто использую R …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

3
Можно ли восстановить нормальное распределение по размеру выборки, а также по минимальным и максимальным значениям? Я могу использовать среднюю точку для прокси среднего
Я знаю, что это может быть немного странно, статистически, но это моя проблема. У меня много данных о диапазоне, то есть минимальный, максимальный и размер выборки переменной. Для некоторых из этих данных у меня также есть среднее, но не много. Я хочу сравнить эти диапазоны друг с другом, чтобы количественно …

1
Работа с отсутствующими данными в модели экспоненциального сглаживания
Похоже, не существует стандартного способа справиться с отсутствующими данными в контексте семейства моделей экспоненциального сглаживания. В частности, реализация R, называемая ets в пакете прогноза , кажется, просто берет самую длинную подпоследовательность без пропущенных данных, и книга «Прогнозирование с экспоненциальным сглаживанием» Hyndman et al. похоже не говорит о пропущенных данных вообще. …

2
Работа с наборами данных с переменным количеством функций
Каковы некоторые подходы для классификации данных с переменным количеством признаков? В качестве примера рассмотрим проблему, в которой каждая точка данных представляет собой вектор точек x и y, и у нас не одинаковое количество точек для каждого экземпляра. Можем ли мы рассматривать каждую пару точек x и y как особенность? Или …

3
Различение отсутствующих наугад (MAR) от отсутствующих наугад (MCAR)
Мне эти два объяснили несколько раз. Они продолжают готовить мой мозг. Пропустить не случайно имеет смысл быть, а Пропустить совершенно случайно имеет смысл ... это Пропадает случайно, что не так много. Что дает данные, которые будут MAR, но не MCAR?

5
Множественное вменение для пропущенных значений
Я хотел бы использовать вменение для замены отсутствующих значений в моем наборе данных при определенных ограничениях. Например, я бы хотел, чтобы вмененная переменная x1была больше или равна сумме двух других моих переменных, скажем, x2и x3. Я также хочу x3быть вмененным либо 0или, >= 14и я хочу x2быть вмененным либо 0или …

1
Как можно справиться с отсутствующими данными при использовании сплайнов или дробных полиномов?
Я читаю построение многомерной модели: прагматический подход к регрессионному анализу, основанный на дробных полиномах для моделирования непрерывных переменных, автор Патрик Ройстон и Вилли Сауэрбрей. Пока что я впечатлен, и это интересный подход, который я раньше не рассматривал. Но авторы не имеют дело с отсутствующими данными. Действительно, на с. 17 они …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.