Что делать, если некоторые моменты времени имеют сильно искаженные отклики, а некоторые нет при повторном измерении?

Как правило, когда встречаются непрерывные, но искаженные показатели результата в продольном дизайне (скажем, с одним эффектом между субъектами), общий подход заключается в преобразовании результата в нормальность. Если ситуация экстремальная, например, с усеченными наблюдениями, можно подумать и использовать модель кривой роста Тобита или что-то подобное.

Но я в недоумении, когда вижу результаты, которые обычно распределяются в определенные моменты времени, а затем сильно искажаются в других; преобразование может заткнуть одну утечку, но вызвать другую. Что вы могли бы предложить в таком случае? Существуют ли «непараметрические» версии моделей со смешанными эффектами, о которых я не знаю?

Примечание: в качестве примера можно привести результаты тестов знаний до / после серии образовательных мероприятий. Результаты начинаются в норме, но затем группируются на верхнем уровне шкалы.

repeated-measures data-transformation skewness

— Бренден Дюфо
источник

Пример интересен тем, что встречается постоянно. Есть известные преобразования, чтобы справиться с этим, такие как «свернутые» преобразования власти Тьюки. Они вносят небольшие изменения в середине шкалы, но излечивают асимметрию на обоих концах. Я обнаружил, что сложенные корни и журналы очень хорошо работают для стандартизированных сравнений до и после теста.

— whuber

Спасибо, Вубер . Я буду смотреть на сложенный подход преобразования.

— Brenden Dufault

Определение и примеры, Бренден, см. Stats.stackexchange.com/a/10979 . Инструкции по их использованию см. В нескольких последних главах книги Тьюки EDA .

— whuber

Дополнительное примечание - помните, что делаются предположения об остатках модели, а не о фактических переменных.

— Питер Флом - Восстановить Монику

Ответы:

Предполагая, что проблема возникает в ваших остатках (поскольку распределение самой исходной переменной обычно не является проблемой), я бы хотел изучить причину проблемы, а не пытаться «исправить» ее путем преобразования или применения непараметрическая модель.

Если это тот случай, когда кажется, что есть тенденция (например, постепенно становится более или менее нормальным) или четкий разрыв между переходом от нормального к ненормальному, то это предполагает «смену режима» в некотором роде. ваши данные (т. е. механизм генерирования данных меняется со временем) или проблема с отсутствующими переменными.

Если это так, что нет очевидного паттерна (например, периоды времени 1 и 3 выглядят нормально, а периоды времени 2 и 4 - нет), я бы очень внимательно искал проблему целостности данных.

Простой способ проверить, есть ли у вас изменение режима, состоит в том, чтобы оценить модель, используя только «нормальные» периоды времени, а затем пересмотреть, используя другие периоды времени, и посмотреть, какая разница возникает. Более сложный подход заключается в использовании модели скрытого класса, возможно, со временем в качестве сопутствующей переменной.

Что касается вашего вопроса о непараметрических моделях смешанных эффектов, то это зависит от того, что вы подразумеваете под непараметрическими. Если вы имеете в виду модели, которые не предполагают числовую зависимую переменную, то таких моделей много (например, LIMDEP имеет довольно много). Кроме того, имейте в виду, что нарушение предположения о нормальности, вероятно, будет проблематичным только с точки зрения логического вывода, если размер вашей выборки невелик. Один из способов исследовать это - попробовать различные преобразования, которые обсуждались в других комментариях и ответах, и посмотреть, сильно ли это повлияет на ваши выводы.

— Тим
источник

+1 Спасибо, Тим. Я ценю ваши предложения относительно моделей скрытого класса и LIMDEP. Эти подходы становятся все более привлекательными для меня, когда я начинаю узнавать о них больше.

— Бренден Дюфо

Существуют преобразования Бокса-Кокса, которые повышают переменную до степенной лямбды, где лямбда включается в оценку параметров модели. Я не знаком со сложившейся трансформацией власти Тьюки, поэтому я не знаю, говорим ли мы об одном и том же. Для того, чтобы оценить лямбду, вам нужно несколько точек в подгонке. Хотите ли вы установить другое распределение в каждой временной точке, где распределение определяется для группы субъектов, проходящих тест в каждой временной точке? Даже если это так, если вы знаете, что некоторые моменты времени должны иметь одинаковое распределение, вы можете объединить их в одну подборку.

Другой подход, который является непараметрическим и не включает преобразований в нормальность, заключается в применении начальной загрузки в каждый момент времени или в каждом объединенном наборе моментов времени.

— Майкл Р. Черник
источник