Я регистрирую преобразованную зависимую переменную, могу ли я использовать нормальное распределение GLM с функцией ссылки LOG?

У меня есть вопрос, касающийся обобщенных линейных моделей (GLM). Моя зависимая переменная (DV) непрерывна и не является нормальной. Таким образом, я лог преобразовал это (все еще не нормальный, но улучшил это).

Я хочу связать DV с двумя категориальными переменными и одной непрерывной ковариабельной. Для этого я хочу провести GLM (я использую SPSS), но я не уверен, как выбрать распределение и функцию для выбора.

Я провел непараметрический тест Левена, и у меня однородность отклонений, поэтому я склонен использовать нормальное распределение. Я читал, что для линейной регрессии данные не должны быть нормальными, а остатки - нормальными. Итак, я напечатал стандартизированные остатки Пирсона и предсказанные значения для линейного предиктора для каждого GLM в отдельности (нормальная тождественная функция GLM и нормальная логарифмическая функция). Я провел тесты нормальности (гистограмма и Шапиро-Уилк) и построил графики остатков по отношению к прогнозным значениям (чтобы проверить случайность и дисперсию) для обоих по отдельности. Остатки от функции тождества не являются нормальными, но остатки от функции логарифма являются нормальными. Я склонен выбирать нормальное с функцией лог-линка, потому что остатки Пирсона обычно распределяются.

Итак, мои вопросы:

Могу ли я использовать нормальное распределение GLM с функцией связи LOG на DV, который уже был преобразован в журнал?
Является ли тест однородности дисперсии достаточным, чтобы оправдать использование нормального распределения?
Правильна ли процедура остаточной проверки для обоснования выбора модели функции связи?

Изображение распределения DV слева и остатки от нормального GLM с функцией логарифмической связи справа.

Распределение DV слева и остатки от GLM, нормальные справа

— Ученый
источник

Не совсем понятно, что вы имеете в виду под этим: « Итак, я сравнил остатки Пирсона из GLM с нормальной функцией тождественности и нормальной функцией логарифма ».

— Glen_b

Спасибо за ваш комментарий. Я имел в виду, что я распечатал остатки и прогнозные значения из каждого GLM (идентификационные данные и журнал) индивидуально, проверил на нормальность и нанес на график стандартизированные остатки Пирсона по сравнению с прогнозируемыми значениями для каждой модели в отдельности. Для функции тождества остатки не являются нормальными, тогда как для функции регистрации остатки являются нормальными.

— Ученый

Как график стандартизированных остатков Пирсона по сравнению с предсказанными значениями показывает, являются ли данные на самом деле нормальными?

— Glen_b

Я проверил нормальность, построив гистограмму остатков и проведя Шапиро-Уилка (P> 0,05 для функции логарифма). Затем я построил остатки по отношению к прогнозируемым значениям, чтобы увидеть, были ли они распределены случайным образом, и проверить дисперсию. (извините за то, что не сказал важную информацию, я публикую в первый раз)

— Ученый

Я предполагаю, что «единичная функция» - это скольжение гомофона для «функции плотности».

— Ник Кокс

Могу ли я использовать нормальное распределение GLM с функцией связи LOG на DV, который уже был преобразован в журнал?

Да; если предположения выполнены в этом масштабе

Является ли тест однородности дисперсии достаточным, чтобы оправдать использование нормального распределения?

Почему равенство отклонений подразумевает нормальность?

Правильна ли процедура остаточной проверки для обоснования выбора модели функции связи?

Вам следует остерегаться использовать как гистограммы, так и тесты на пригодность, чтобы проверить соответствие ваших предположений:

1) Остерегайтесь использования гистограммы для оценки нормальности. (Также см. Здесь )

Короче говоря, в зависимости от чего-то простого, например, небольшого изменения в выбранной вами ширине бина или даже от расположения границы бина, можно получить совершенно разные впечатления от формы данных:

Две гистограммы остатков

Это две гистограммы одного и того же набора данных. Использование нескольких разных значений ширины бин может быть полезным для определения того, чувствительно ли к этому впечатление.

2) Остерегайтесь использования критериев соответствия, чтобы сделать вывод о том, что допущение нормальности является разумным. Формальные проверки гипотезы не дают правильного ответа.

например, см. ссылки в пункте 2. здесь

О дисперсии, которая упоминалась в некоторых работах с использованием аналогичных наборов данных, «поскольку распределения имели однородные дисперсии, использовалась GLM с гауссовым распределением». Если это не правильно, как я могу обосновать или решить вопрос о распределении?

При нормальных обстоятельствах вопрос не в том, являются ли мои ошибки (или условные распределения) нормальными? - они не будут, нам даже не нужно проверять. Более актуальный вопрос: «насколько сильно степень ненормальности, которая присутствует, влияет на мои выводы?»

Я предлагаю оценку плотности ядра или нормальный QQplot (график остатков против нормальных показателей). Если распределение выглядит нормально, вам не о чем беспокоиться. На самом деле, даже если это явно ненормально, это все равно может не иметь большого значения, в зависимости от того, что вы хотите сделать (например, нормальные интервалы прогнозирования действительно будут зависеть от нормальности, но многие другие вещи будут работать при больших размерах выборки). )

Как ни странно, в больших выборках нормальность становится, как правило, все менее и менее критичной (кроме ПИ, как было упомянуто выше), но ваша способность отклонять нормальность становится все больше и больше.

Изменить: вопрос о равенстве дисперсии заключается в том, что действительно может повлиять на ваши выводы, даже при больших размерах выборки. Но вы, вероятно, не должны оценивать это с помощью проверок гипотез. Неправильное предположение о дисперсии является проблемой, независимо от предполагаемого распределения.

Я читал, что масштабированное отклонение должно быть около Np для модели, чтобы хорошо подходить правильно?

Когда вы подходите к нормальной модели, у нее есть параметр масштаба, и в этом случае ваше масштабированное отклонение будет около Np, даже если ваше распределение не является нормальным.

на ваш взгляд нормальный дистрибутив с лог-ссылкой - это хороший выбор

В условиях постоянного отсутствия информации о том, что вы измеряете или для чего вы используете вывод, я все еще не могу судить, предлагать ли другой дистрибутив для GLM, и насколько важна нормальность для ваших выводов.

Однако, если другие ваши предположения также являются разумными (следует по крайней мере проверить линейность и равенство отклонений и рассмотреть потенциальные источники зависимости), то в большинстве случаев мне было бы очень удобно делать такие вещи, как использование КИ и выполнение тестов на коэффициенты или контрасты - у этих остатков очень слабое впечатление асимметрии, которое, даже если это реальный эффект, не должно оказывать существенного влияния на подобные выводы.

Короче, у тебя должно быть все в порядке.

(Хотя другая функция распределения и ссылки могла бы быть немного лучше с точки зрения соответствия, только в ограниченных обстоятельствах они также могли бы иметь больше смысла.)

— Glen_b - Восстановить Монику
источник

Еще раз спасибо! О дисперсии, которая упоминалась в некоторых работах с использованием аналогичных наборов данных, «поскольку распределения имели однородные дисперсии, использовалась GLM с гауссовым распределением». Если это не правильно, как я могу обосновать или решить вопрос о распределении? Что касается остаточного нормального распределения, значит, оно более уместно, верно? Я читал, что масштабированное отклонение должно быть около Np для модели, чтобы хорошо подходить правильно? Значение одинаково как для GLM, так и для Np. Я также определил наиболее подходящую модель в модели, используя критерии AIC. Не уверен, что это то, что вы имели в виду.

— Ученый

см. обсуждение в моих изменениях выше

— Glen_b

Спасибо @Glen_b за хорошее объяснение. Гистограмма, которую я также протестировал с помощью Shapiro-Wilk, не будет ли это учитывать все? Я нанес на график QQ ожидаемые нормальные значения и остаточные значения наблюдаемого Пирсона и точки + - соответствуют линии, за исключением кончиков, где они идут немного вверх. Это то, что вы имели в виду? Распределение остатков выглядит нормально, поэтому я могу продолжить? (даже если зарегистрированный DV не является нормальным) (Я все еще читаю ссылки, но хотел спросить это)

— Ученый

« потому что нормальный график QQ был нормально распределен для этой модели? » ... я мог бы сказать, что «график остатков QQ предполагает, что предположение о нормальности является разумным» или «остатки кажутся достаточно близкими к нормальному». Если ваша аудитория ожидает проверки гипотез, вы все равно можете процитировать одну (но это не меняет того факта, что они не особенно полезны). « Проблема с набором данных состоит в том, что в гистограмме DV » ... нет предположений о распределении безусловного DV или любого из IV.

— Glen_b

Смотрите дополнительную дискуссию внизу моего ответа. Извините, я не ответил раньше, но я спал. По другому вопросу причина, по которой я спросил, состояла в том, что две модели разделяют большинство своих предположений, и поэтому почти все это обсуждение относится к этому вопросу - даже если DV отличается. Это не совсем та же ситуация (и поэтому это должен быть новый вопрос), но этот вопрос должен быть связан с ним, чтобы вы могли задавать вопросы в контексте этого обсуждения, например, есть ли какие-либо другие или дополнительные проблемы.

— Glen_b