Подгонка многоуровневых моделей к сложным данным обследования в R

11

Я ищу совет о том, как анализировать сложные данные опросов с помощью многоуровневых моделей в R. Я использовал этот surveyпакет для взвешивания неравных вероятностей выбора в одноуровневых моделях, но этот пакет не имеет функций для многоуровневого моделирования. lme4Пакет отлично подходит для многоуровневого моделирования, но это не так , что я знаю , чтобы включать веса на различных уровнях кластеризации. Аспарухов (2006) ставит задачу:

Многоуровневые модели часто используются для анализа данных из схем кластерной выборки. Такие схемы выборки, однако, часто используют неравную вероятность выбора на уровне кластера и на индивидуальном уровне. Веса выборки назначаются на одном или обоих уровнях для отражения этих вероятностей. Если веса выборки игнорируются на любом уровне, оценки параметров могут быть существенно смещены.

Одним из подходов для двухуровневых моделей является многоуровневая оценка псевдо максимального правдоподобия (MPML), которая реализована в MPLUS ( Asparouhov et al,? ). Карл (2009) рассматривает основные пакеты программного обеспечения и дает несколько рекомендаций о том, как действовать:

Чтобы правильно выполнять MLM со сложными данными опроса и расчетными весами, аналитикам необходимо программное обеспечение, которое может включать веса, масштабированные вне программы, и включать «новые» масштабированные веса без автоматического изменения программы. В настоящее время три из основных программ MLM позволяют это: Mplus (5.2), MLwiN (2.02) и GLLAMM. К сожалению, ни HLM, ни SAS не могут этого сделать.

Уэст и Галецки (2013) дают более обновленный обзор, и я процитирую соответствующий отрывок:

Иногда аналитики хотят приспособить LMM к наборам данных обследования, собранным из выборок со сложным дизайном (см. Heeringa et al, 2010, глава 12). Сложные схемы выборки, как правило, характеризуются разделением населения на слои, многоступенчатым отбором групп индивидуумов из слоев и неравными вероятностями отбора как для кластеров, так и для конечных выборочных особей. Эти неравные вероятности отбора обычно приводят к построению весов выборки для отдельных лиц, которые обеспечивают объективную оценку описательных параметров при включении в анализ. Эти весовые коэффициенты могут быть дополнительно скорректированы для отсутствия ответов на опрос и откалиброваны для известных итоговых показателей совокупности. Традиционно, аналитики могут рассмотреть конструктивный подход к включению этих сложных функций выборки при оценке регрессионных моделей (Heeringa et al., 2010). Совсем недавно статистики начали изучать основанные на модели подходы к анализу этих данных, используя LMM для включения фиксированных эффектов страт выборки и случайных эффектов кластеров выборки.

Основная трудность при разработке основанных на моделях подходов к анализу этих данных заключалась в выборе подходящих методов для включения весов выборки (краткую информацию о проблемах см. В Gelman, 2007). Пфефферманн и соавт. (1998), Asparouhov и Muthen (2006), а также Rabe-Hesketh и Skrondal (2006) разработали теорию для оценки многоуровневых моделей таким образом, который включает веса обследования, и Rabe-Hesketh and Skrondal (2006), Carle (2009) и Heeringa et al. (2010, Глава 12) представили приложения, использующие текущие процедуры программного обеспечения, но это продолжает оставаться активной областью статистических исследований. Программные процедуры, способные приспособить LMM, находятся на различных этапах реализации подходов, которые были предложены в литературе до настоящего времени для включения сложных конструктивных особенностей, и аналитики должны учитывать это при подборе LMM к сложным выборочным данным обследования. Аналитики, заинтересованные в подборе LMM к данным, собранным в ходе комплексных выборочных обследований, будут привлекаться к процедурам, способным правильно включать веса обследований в процедуры оценки (HLM, MLwiN, Mplus, xtmixed и gllamm), что согласуется с настоящей литературой в этом разделе. площадь.

Это подводит меня к моему вопросу: есть ли у кого-нибудь рекомендации по наилучшей практике для подгонки LMM к сложным данным обследования в R?

r mixed-model weighted-sampling cluster-sample

— Эрик Грин
источник

1

Привет, Эрик, ссылки в параграфе, которые начинаются i've never said it beforeс этого поста о addhealth, могут быть интересны .. :(

— Энтони Дамико

1

@AnthonyDamico, ссылка теперь не работает :-(

— Бен Болкер,

@BenBolker это так! они изменили название микроданных, так что я тоже сделал :) новое место: asdfree.com/search/label/…

— Энтони Дамико,

Извините, если я неверно истолковал ваш вопрос, но, насколько я понимаю, вы зафиксировали (известные) веса из плана эксперимента и хотите использовать линейную смешанную модель, которая включает эти веса проекта. lmerФункция в lme4пакете позволяет спецификацию weightsаргумента для процесса модели облегающих, так что если вы исправили конструкцию весы, вы должны быть в состоянии включить их с этим аргументом. У меня здесь не тот конец палки? Есть ли какая-то причина, по которой это не соответствует вашим потребностям?

— Бен - Восстановить Монику

4

Насколько я знаю, вы не можете сделать это в R на данный момент, если вам действительно нужна смешанная модель (например, если вы заботитесь о компонентах дисперсии)

Аргумент весов lme4::lmer() не будет делать то, что вы хотите, потому lmer()что весы интерпретируются как весы точности, а не как весы выборки. В отличие от обычных линейных и обобщенных линейных моделей, вы даже не получите правильные точечные оценки с кодом, который обрабатывает вес выборки как вес точности для смешанной модели.

Если вам не нужно оценивать компоненты дисперсии, и вы просто хотите, чтобы многоуровневые функции модели получали правильные стандартные ошибки, которые вы можете использовать survey::svyglm().

— Томас Ламли
источник

0

Пакет WeMix теперь является опцией, по крайней мере, для линейных и логистических многоуровневых моделей. Кажется, очень медленно, по сравнению с запуском этих моделей в Stata или MPlus.

— suckrates
источник

0

Я тоже сталкиваюсь с той же проблемой. В результате проведенного в последние несколько дней тщательного поиска я обнаружил, что пакет BIFIEsurvey наиболее близок к анализу многоуровневых моделей со сложными данными обследования с выборочными и дублированными весами и вероятными значениями: https://cran.r-project.org/web /packages/BIFIEsurvey/index.html Пакет, однако, ограничен двухуровневыми моделями. Я также читал, что автор пакета "intsvy" планирует в долгосрочной перспективе сделать так, чтобы "intsvy" мог анализировать многоуровневые модели, но на сегодняшний день он все еще не может. Если есть какой-либо прогресс в решении этой проблемы, который я мог бы случайно пропустить, я был бы рад, если бы кто-то мог поделиться им.

— G_Konyarov
источник