Могу ли я использовать нормальное распределение GLM с функцией связи LOG на DV, который уже был преобразован в журнал?
Да; если предположения выполнены в этом масштабе
Является ли тест однородности дисперсии достаточным, чтобы оправдать использование нормального распределения?
Почему равенство отклонений подразумевает нормальность?
Правильна ли процедура остаточной проверки для обоснования выбора модели функции связи?
Вам следует остерегаться использовать как гистограммы, так и тесты на пригодность, чтобы проверить соответствие ваших предположений:
1) Остерегайтесь использования гистограммы для оценки нормальности. (Также см. Здесь )
Короче говоря, в зависимости от чего-то простого, например, небольшого изменения в выбранной вами ширине бина или даже от расположения границы бина, можно получить совершенно разные впечатления от формы данных:
Это две гистограммы одного и того же набора данных. Использование нескольких разных значений ширины бин может быть полезным для определения того, чувствительно ли к этому впечатление.
2) Остерегайтесь использования критериев соответствия, чтобы сделать вывод о том, что допущение нормальности является разумным. Формальные проверки гипотезы не дают правильного ответа.
например, см. ссылки в пункте 2. здесь
О дисперсии, которая упоминалась в некоторых работах с использованием аналогичных наборов данных, «поскольку распределения имели однородные дисперсии, использовалась GLM с гауссовым распределением». Если это не правильно, как я могу обосновать или решить вопрос о распределении?
При нормальных обстоятельствах вопрос не в том, являются ли мои ошибки (или условные распределения) нормальными? - они не будут, нам даже не нужно проверять. Более актуальный вопрос: «насколько сильно степень ненормальности, которая присутствует, влияет на мои выводы?»
Я предлагаю оценку плотности ядра или нормальный QQplot (график остатков против нормальных показателей). Если распределение выглядит нормально, вам не о чем беспокоиться. На самом деле, даже если это явно ненормально, это все равно может не иметь большого значения, в зависимости от того, что вы хотите сделать (например, нормальные интервалы прогнозирования действительно будут зависеть от нормальности, но многие другие вещи будут работать при больших размерах выборки). )
Как ни странно, в больших выборках нормальность становится, как правило, все менее и менее критичной (кроме ПИ, как было упомянуто выше), но ваша способность отклонять нормальность становится все больше и больше.
Изменить: вопрос о равенстве дисперсии заключается в том, что действительно может повлиять на ваши выводы, даже при больших размерах выборки. Но вы, вероятно, не должны оценивать это с помощью проверок гипотез. Неправильное предположение о дисперсии является проблемой, независимо от предполагаемого распределения.
Я читал, что масштабированное отклонение должно быть около Np для модели, чтобы хорошо подходить правильно?
Когда вы подходите к нормальной модели, у нее есть параметр масштаба, и в этом случае ваше масштабированное отклонение будет около Np, даже если ваше распределение не является нормальным.
на ваш взгляд нормальный дистрибутив с лог-ссылкой - это хороший выбор
В условиях постоянного отсутствия информации о том, что вы измеряете или для чего вы используете вывод, я все еще не могу судить, предлагать ли другой дистрибутив для GLM, и насколько важна нормальность для ваших выводов.
Однако, если другие ваши предположения также являются разумными (следует по крайней мере проверить линейность и равенство отклонений и рассмотреть потенциальные источники зависимости), то в большинстве случаев мне было бы очень удобно делать такие вещи, как использование КИ и выполнение тестов на коэффициенты или контрасты - у этих остатков очень слабое впечатление асимметрии, которое, даже если это реальный эффект, не должно оказывать существенного влияния на подобные выводы.
Короче, у тебя должно быть все в порядке.
(Хотя другая функция распределения и ссылки могла бы быть немного лучше с точки зрения соответствия, только в ограниченных обстоятельствах они также могли бы иметь больше смысла.)