GEE: выбор правильной рабочей корреляционной структуры


19

Я - эпидемиолог, пытающийся понять GEE, чтобы правильно проанализировать когортное исследование (используя регрессию Пуассона с лог-ссылкой для оценки относительного риска). У меня есть несколько вопросов о «рабочей корреляции», которые я хотел бы прояснить:

(1) Если я проводил повторные измерения в одном и том же человеке, то обычно ли разумнее предполагать заменяемую структуру? (Или авторегрессия, если измерения показывают тренд)? А как насчет независимости - есть ли случаи, когда можно было бы принять независимость для измерений в одном и том же человеке?

(2) Есть ли (достаточно простой) способ оценить правильную структуру путем изучения данных?

(3) Я заметил, что при выборе структуры независимости я получаю те же точечные оценки (но с более низкими стандартными ошибками), что и при выполнении простой регрессии Пуассона (используя R, функцию glm()и geeglm()из пакета geepack). Почему это происходит? Я понимаю, что с GEE вы оцениваете усредненную по населению модель (в отличие от предметной), поэтому вы должны получать одинаковые точечные оценки только в случае линейной регрессии.

(4) Если моя когорта находится в нескольких местах расположения (но одно измерение на человека), я должен выбрать независимость или обменную рабочую корреляцию и почему? Я имею в виду, люди на каждом сайте все еще независимы друг от друга, верно? Так, например, для предметно-ориентированной модели я бы определил сайт как случайный эффект. Однако в случае GEE независимость и взаимозаменяемость дают разные оценки, и я не уверен, какая из них лучше с точки зрения базовых допущений.

(5) Может ли GEE обрабатывать двухуровневую иерархическую кластеризацию, то есть многосайтовую когорту с повторными измерениями на человека? Если да, что я должен указать в качестве переменной кластеризации geeglm()и какой должна быть рабочая корреляция, если предположить, например, «независимость» для первого уровня (сайт) и «обменную» или «авторегрессию» для второго уровня (отдельный)?

Я понимаю, что это довольно много вопросов, и некоторые из них могут быть довольно простыми, но все же очень трудно для меня (и, возможно, для других новичков?) Понять. Таким образом, любая помощь очень и искренне ценится, и чтобы показать это, я начал щедрость.

Ответы:


12
  1. Не обязательно. С небольшими кластерами, несбалансированным дизайном и неполной настройкой внутри кластерного компоновщика, обменная корреляция может быть более неэффективной и предвзятой по сравнению с независимостью GEE. Эти предположения тоже могут быть довольно сильными. Однако, когда эти предположения будут выполнены, вы получите более эффективный вывод с заменяемыми. Я никогда не встречал случая, когда корреляционные структуры AR-1 имеют смысл, поскольку редко бывают измерения, сбалансированные по времени (я работаю с данными людей).

  2. Что ж, изучение корреляции - это хорошо, и это следует делать при анализе данных. Тем не менее, это действительно не должно направлять принятие решений. Вы можете использовать вариограммы и лорелограммы для визуализации корреляции в продольных и панельных исследованиях. Внутрикластерная корреляция является хорошим измерением степени корреляции внутри кластеров.

  3. Структура корреляции в GEE, в отличие от смешанных моделей, не влияет на оценки предельных параметров (которые вы оцениваете с помощью GEE). Это влияет на стандартные оценки ошибок, хотя. Это не зависит от какой-либо функции связи. Функция ссылки в GEE предназначена для маргинальной модели.

  4. Сайты могут быть источниками неизмеренных изменений, таких как зубы во рту или учащиеся в школьном округе. В этих данных есть потенциальные факторы, которые могут повлиять на уровень кластера, такие как генетическая склонность к кариесу или финансирование образования сообщества, поэтому по этой причине вы получите более точные стандартные оценки ошибок, используя сменную структуру корреляции.

  5. Расчет предельных эффектов в GEE сложен, когда они не вложены, но это можно сделать . Вложение легко, и вы делаете так, как вы сказали.


(Относительно # 5) Так что в случае вложенной кластеризации просто выбирают переменную кластера верхнего уровня и все?
Теодор Литрас

Нет, вы можете создать иерархическую двухуровневую сменную структуру корреляции и последовательно оценить два отдельных параметра корреляции для корреляции, используя трехэтапный EM-алгоритм. Таким образом, вы знаете, что дети в сообществах коррелируют, но не так коррелируют, как дети в домохозяйстве.
AdamO

Извините, я не понимаю этого. Не могли бы вы указать мне код, предпочтительно в R или Stata? Я думаю, это должно помочь.
Теодор Литрас

1
@TheodoreLytras извините, я ошибся. Ваше предыдущее утверждение верно. Из той самой статьи, на которую я ссылался: «Кроме того, если несколько кластеров идеально вложены, кластеризация GEE на кластере верхнего уровня учитывает многоуровневую корреляционную структуру через сэндвич-оценочную дисперсию».
AdamO

1
Возможно, вы имеете в виду что-то другое, но когда вы заявляете, что «структура корреляции в GEE, в отличие от смешанных моделей, не влияет на оценки предельных параметров», я думаю, что это не так. По крайней мере, если вы имеете в виду, что коэффициенты неизменны при выборе другой рабочей матрицы корреляции, это не то, что происходит: корреляционная матрица работает в матрице весов и влияет на ковариационную матрицу, а также на коэффициенты.
Ник

6

(1) Вам, вероятно, понадобится какая-то авторегрессионная структура просто потому, что мы ожидаем, что измерения, взятые дальше друг от друга, будут менее коррелированными, чем те, которые взяты ближе друг к другу. Обмениваемый предположил бы, что они все одинаково коррелированы. Но, как и во всем остальном, это зависит.

(2) Я думаю, что такого рода решение сводится к размышлению о том, как были сгенерированы данные, а не к тому, как они выглядят.

(4) это зависит. Например, дети, гнездящиеся в школах, в большинстве случаев не должны рассматриваться как независимые. Из-за социальных паттернов и т. Д., Если я что-то знаю о ребенке в данной школе, то я, вероятно, знаю хотя бы немного о других детях в школах. Однажды я использовал GEE, чтобы посмотреть на взаимосвязь между различными социальными и экономическими показателями и распространенностью ожирения в когорте новорожденных, где участники гнездились по соседству. Я использовал сменную структуру. Вы можете найти статью здесь и проверить некоторые ссылки, в том числе 2 из эпических журналов.

(5) Очевидно так (например, см. Этот пример ), но я не могу помочь со спецификой R сделать это.

Зегер С.Л., Лян К.Ю., Альберт П.С. Модели для продольных данных: подход обобщенного оценочного уравнения. Биометрия. 1988; 44: 1049-60.

Хаббард А.Е., Ахерн Дж., Флейшер Н., Ван дер Лаан М., Липпман С., Брукнер Т., Сатариано В. В GEE или нет в GEE: сравнение функции оценки и основанных на вероятности методов для оценки связей между районами и здоровьем. Эпидемиология. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Статистический анализ коррелированных данных с использованием обобщенных оценочных уравнений: ориентация. Am J Epidemiol. 2003; 157: 364.


Это действительно полезно, но заставляет задуматься, зачем кому-то тогда использовать независимую структуру, потому что кластеризация сама по себе подразумевает некоторую степень сходства между наблюдениями. Однако у меня сложилось впечатление, что в случае школ сходство связано с другими школами , и в каждой школе ученики будут независимыми. Так что я до сих пор не очень ясно об этом.
Теодор Литрас

Да, если вы ограничивали выборку и последующее моделирование одной школой, не беспокойтесь. В этом случае было бы более оправданным предположить, что ошибки устранены. Но как только вы начинаете объединять детей из разных школ в одну и ту же выборку / модель, это предположение становится незначительным, если вы не учитываете школу в модели, то есть так, чтобы допущены ошибки, обусловленные школой.
DL Dahly

Также стоит отметить, что люди могли бы быть более полезными для вас, если бы вы могли предоставить некоторые подробности, касающиеся размера выборки, количества и времени повторных измерений, количества кластеров и т.
Д.

2
@DLDahly Ваша точка зрения в (1) не часто встречается в биостатистических анализах. Одно из предположений, лежащих в основе корреляционных структур AR-N, заключается в том, что при наличии достаточного времени между ними два измерения на одном и том же человеке будут такими же некоррелированными, как два измерения между разными индивидуумами. Однако лежащие в основе основные конфликтующие между кластерами часто не являются изменяющимися во времени ковариатами (такими как генетические маркеры), и предположить, что иначе очень трудно (если не невозможно) оценить. Лорелограмма - очень хорошее место для начала.
AdamO

1

(0) Общие комментарии: большинство моделей, которые я вижу в перекрестной проверке, слишком сложны. Упростите, если это вообще возможно. Часто стоит моделировать с GEE и смешанной моделью для сравнения результатов.
(1) Да. Выберите обмен. Мой однозначный ответ основан на наиболее широко рекламируемом преимуществе GEE: устойчивости оценок к сделанным предположениям.
Если вы посмотрите на исследования в своей области, вы должны увидеть, что exch является опцией по умолчанию. Это не значит, что это лучшее, но должно быть первым, чтобы рассмотреть. Консультирование exch будет лучшим советом без подробного знания ваших данных.
(2) Да, существуют подходы, основанные на данных, такие как «QIC». Это пример Stata, но широко принятый в качестве разумного варианта, хотя и очень редко используемый на практике:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Точечные оценки никогда не бывают одинаковыми (если вы не используете корреляционную структуру с независимым индексом), но обычно довольно близки. Вы можете найти много статей, в которых сравниваются оценки модели простых / gee / mixed эффектов, чтобы понять это ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ). Большинство учебников также имеют таблицу или два за это. Для независимой корреляционной структуры вы, по сути, используете пуассоновскую модель с надежными SE. Так что оценки будут точно такими же. SE обычно больше. Но иногда надежные SE меньше (то есть life: google с подробным объяснением, если интересно)
(4) См. (1) и (2) выше.
(5) Нет. Или, лучше сказать, вы можете сделать что-нибудь, если приложите к этому достаточно усилий, но это очень редко стоит усилий.


0

Вы используете неправильный подход с Gee, чтобы делать то, что вы делаете, потому что вы не знаете структуру, и ваши результаты могут быть смущены. Обратитесь к Джейми Робинсону. Вам нужно использовать долго. TMLE (Марк ван дер Лаан) или, может быть, гы с весом iptw. Неучтение корреляции недооценивает дисперсию. Подумайте только, если бы все повторные измерения были коррелированы на 100%, тогда у вас было бы намного меньше наблюдений (по сути, только n для ваших n субъектов), а меньшее n означает более высокую дисперсию.


Если у вас результат, не связанный с выживанием, вы можете использовать подход gee с независимой структурой corr и весами iptw, как это предлагается для несмещенных оценок, при условии, что вы получаете правильный показатель склонности. TMLE лучше всего подходит во всех случаях, выживание или нет, потому что вы можете использовать ансамблевое обучение, чтобы предсказать оценки склонности и последовательные регрессии и все же получить эффективный вывод. Ваш подход, безусловно, будет предвзятым и даст неверный вывод, и чем больше размер вашей выборки, если нет эффекта, вы, скорее всего, определите неправильный значительный эффект !!
Джонатан Леви

Это может использовать более подробно. Что такое Джени Робинсон? Какая статья Ван дер Лаана?
Mdewey

@ mdewey извини, опечатка, имел в виду Джейми Робинс. Попробуйте Робинса, Эрнана, предельные структурные модели Babette 2000 и причинно-следственные связи - отличный метод для достижения результата, не связанного с выживанием, включая способ сделать msm с модификаторами эффекта. Для Лана, ссылка на книгу, целевое обучение. Как я уже сказал, Лан, вероятно, лучше, но требует большего, чтобы понять. Пакет R Ltmle выполняет эту методологию, но требует некоторого времени для изучения.
Джонатан Леви
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.