Вопросы с тегом «multiple-imputation»

Множественное вменение относится к набору процедур стохастического вменения, направленных на сохранение многомерных характеристик данных.

5
Как работать с иерархическими / вложенными данными в машинном обучении
Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная Y является фактором. В моем наборе данных …

4
Многократное вменение и выбор модели
Многократное вменение довольно просто, если у вас есть априори линейная модель, которую вы хотите оценить. Тем не менее, вещи кажутся немного сложнее, когда вы на самом деле хотите сделать выбор модели (например, найти «лучший» набор переменных-предикторов из большего набора переменных-кандидатов - я думаю конкретно о LASSO и дробных многочленах с …

3
Вменение до или после разделения на поезд и тест?
У меня есть набор данных с N ~ 5000 и около 1/2 отсутствует по крайней мере по одной важной переменной. Основным аналитическим методом будет пропорциональный риск Кокса. Я планирую использовать множественное вменение. Я также буду разделяться на поезд и тестовый набор. Должен ли я разделять данные и затем вменять отдельно, …

2
Множественное вложение для исходных переменных
У меня есть набор данных по сельскохозяйственным испытаниям. Моя переменная ответа - это соотношение ответов: log (лечение / контроль). Меня интересует, что опосредует разницу, поэтому я использую мета-регрессии RE (невзвешенные, потому что кажется довольно ясным, что величина эффекта не связана с дисперсией оценок). Каждое исследование сообщает урожай зерна, урожай биомассы …

1
Объединение калибровочных участков после многократного вменения
Я хотел бы получить совет по объединению калибровочных графиков / статистики после многократного вменения. В условиях разработки статистических моделей для прогнозирования будущего события (например, с использованием данных из больничных записей для прогнозирования выживаемости или событий после выписки из больницы) можно предположить, что существует некоторая или много недостающей информации. Множественное вменение …

2
используя информацию о соседях при вменении данных или находке вне данных (в R)
У меня есть набор данных с предположением, что ближайшие соседи являются лучшими предикторами. Просто прекрасный пример визуализации двухстороннего градиента Предположим, у нас есть случай, когда несколько значений отсутствуют, мы можем легко предсказать на основе соседей и тренда. Соответствующая матрица данных в R (фиктивный пример для тренировки): miss.mat <- matrix (c(5:11, …

5
Множественное вменение для пропущенных значений
Я хотел бы использовать вменение для замены отсутствующих значений в моем наборе данных при определенных ограничениях. Например, я бы хотел, чтобы вмененная переменная x1была больше или равна сумме двух других моих переменных, скажем, x2и x3. Я также хочу x3быть вмененным либо 0или, >= 14и я хочу x2быть вмененным либо 0или …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Как я могу объединить загруженные p-значения через множественные вмененные наборы данных?
Я обеспокоен проблемой, состоящей в том, что я хотел бы запустить p-значение для оценки из данных с множественным вменением (MI), но мне неясно, как объединить p-значения в наборах MI.θθ\theta Для наборов данных MI стандартный подход для получения полной дисперсии оценок использует правила Рубина. Смотрите здесь для обзора объединения наборов данных …

2
Как получить объединенные p-значения в тестах, выполненных в нескольких вмененных наборах данных?
Используя Amelia в R, я получил несколько вмененных наборов данных. После этого я выполнил повторный тест в SPSS. Теперь я хочу объединить результаты испытаний. Я знаю, что могу использовать правила Рубина (реализованные через любой пакет множественного вменения в R) для объединения средств и стандартных ошибок, но как мне объединить p-значения? …

2
В продольном исследовании я должен вменять результат Y, измеренный во время 2, для людей, которые были потеряны для наблюдения?
Я повторил измерения в 2 раза в выборке людей. В момент 1 - 18 тысяч человек, а в момент 2 - 13 тысяч человек (5000 потерянных для последующего наблюдения). Я хочу регрессировать результат Y, измеренный в момент времени 2 (и результат не может быть измерен в момент времени 1) на …

2
Как улучшить время выполнения для импутации данных R MICE
Мой вопрос вкратце: есть ли способы улучшить время работы R MICE (вменение данных)? Я работаю с набором данных (30 переменных, 1,3 миллиона строк), который содержит (совершенно случайно) недостающие данные. Около 8% наблюдений примерно в 15 из 30 переменных содержат НК. Чтобы вложить недостающие данные, я запускаю функцию MICE, часть пакета …


1
Множественная регрессия с отсутствующей переменной-предиктором
Предположим, нам дан набор данных в форме и . Нам дана задача прогнозирования на основе значений . Мы оцениваем две регрессии, где: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y( у, х1, х2, ⋯ , хN)(Y,Икс1,Икс2,⋯,ИксN)(y,x_{1},x_{2},\cdots, x_{n})( у, х1, …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.