Откуда исходит неправильное представление о том, что Y должен быть нормально распределен?

Достоверно авторитетные источники утверждают, что зависимая переменная должна быть нормально распределена:

Предположения модели: нормально распределен, ошибки нормально распределены, и независимы, фиксирован и постоянная дисперсия . $Y$ $e_i \sim N(0,\sigma^2)$ $X$ $\sigma^2$

Penn State, STAT 504 Анализ дискретных данных

Во-вторых, линейный регрессионный анализ требует, чтобы все переменные были многомерными нормальными.

Статистика Решения, допущения о линейной регрессии

Это подходит, когда переменная ответа имеет нормальное распределение

Википедия, Обобщенная линейная модель

Есть хорошее объяснение тому, как или почему распространено это заблуждение? Известно ли его происхождение?

Связанный

Линейная регрессия и предположения о переменной отклика

— timwiz
источник

Грустный. Вы делаете доброе дело здесь ...

— Jbowman

Я не знаю ни одной ситуации, использующей линейную регрессию, которая требует, чтобы предельное распределение или объединение всех переменных было многомерным нормальным. Это выглядит как заблуждение для меня.

Y

$Y$

— Мэтью Друри

@MichaelChernick "Y обычно распределяется" - явно ложно. Проверьте это в R: X <- runif(n=100)затем Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)поиграйте с гистограммами, чтобы убедиться, что ни X, ни Y нормально не распределены. Затем summary(lm(Y ~ X))и обратите очень пристальное внимание на то, насколько близко перехват до 3, а наклон X равен 0,5. Предполагается, что ошибки обычно распределяются.

— Алексис

@Alexis Я верю, что Майкл пытался сказать, что многовариантные предположения о нормальности достаточны, но не обязательны. Это ясно, как следует читать цитату из Википедии. Вторая цитата, очевидно, неверна, утверждая, что эти предположения необходимы. Первая цитата двусмысленна, но может быть щедро прочитана в том смысле, в котором объяснил Майкл.

— whuber

Все, что я говорил, было то, что предположение нормальности подразумевает определенные свойства. Например, в простой линейной регрессии, если вы предполагаете, что члены ошибки являются нормальными с нулевым средним и постоянной дисперсией, оценка методом регрессии методом наименьших квадратов является максимальной вероятностью. Сохранение всех допущений, за исключением наименьших квадратов нормальности, больше не является максимальной вероятностью, но все равно является несмещенной минимальной дисперсией.

— Майкл Черник

Ответы:

«Y должен быть нормально распределен»

должен?

В тех случаях, когда вы упоминаете, что это неаккуратный язык (сокращенно «ошибка в Y должна быть нормально распределена» ), но на самом деле (сильно) не говорится, что ответ должен быть нормально распределен, или, по крайней мере, это не кажется мне, что их слова были предназначены так.

Материалы курса Penn State

говорит о «непрерывной переменной » $Y$ , но также и о « », как в где мы можем рассматривать , то есть амебу, называемую в комментариях «условно», нормально распределенную, $Y_i$

E (Y_{i}) = β_{0} + β_{1} x_{i}

$E(Y_i) = \beta_0 + \beta_1 x_i$

Y_{i}

$Y_i$

Y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2})

$Y_i \sim N(\beta_0 + \beta_1x_i,\sigma^2)$

В статье используются и взаимозаменяемо. На протяжении всей статьи говорится о «распределении Y», например: $Y$ $Y_i$

при объяснении некоторого варианта GLM (бинарная логистическая регрессия),

Случайный компонент : распределение предполагается , ... $Y$ $Binomial(n,\pi)$
в каком-то определении

Случайный компонент - относится к распределению вероятности ответной переменной ( ); например, нормальное распределение для в линейной регрессии или биномиальное распределение для в двоичной логистической регрессии. $Y$ $Y$ $Y$

однако в какой-то другой момент они также ссылаются на вместо : $Y_i$ $Y$

Зависимая переменная НЕ нуждается в нормальном распределении, но обычно она предполагает распределение из экспоненциального семейства (например, биномиальное, пуассоновское, полиномиальное, нормальное и т. Д.) $Y_i$

Веб-страница со статистикой решений

очень краткое, упрощенное, стилизованное описание. Я не уверен, что вы должны относиться к этому серьезно. Например, это говорит о

... требует, чтобы все переменные были многомерными нормальными ...

так что это не просто переменная ответа,

а также «многомерный» дескриптор является расплывчатым. Я не уверен, как это интерпретировать.

Статья в википедии

имеет дополнительный контекст, объясненный в скобках:

Обычная линейная регрессия предсказывает ожидаемое значение заданной неизвестной величины (переменная отклика, случайная величина) как линейную комбинацию набора наблюдаемых значений (предикторов) . Это подразумевает, что постоянное изменение в предикторе приводит к постоянному изменению переменной отклика (то есть модели линейного отклика). Это целесообразно, когда переменная отклика имеет нормальное распределение (интуитивно, когда переменная отклика может изменяться по существу неограниченно в любом направлении без фиксированного «нулевого значения», или, в более общем случае, для любой величины, которая изменяется только на относительно небольшую величину, например, для человека высоты).

Это «не фиксированное нулевое значение», похоже, указывает на случай, когда линейная комбинация когда имеет бесконечную область (от минус бесконечности до плюс бесконечности), тогда как часто многие переменные имеют некоторые конечное значение отсечения (например, отсчеты, не допускающие отрицательных значений). $y+\epsilon$ $\epsilon \sim N(0,\sigma)$

Конкретная строка была добавлена 8 марта 2012 года , но обратите внимание, что первая строка статьи Википедии все еще гласит «гибкое обобщение обычной линейной регрессии, которая допускает переменные ответа, которые имеют модели распределения ошибок, отличные от нормального распределения» и не так много (не везде) неправильно.

Заключение

Итак, основываясь на этих трех примерах (которые действительно могут порождать неправильные представления или, по крайней мере, могут быть неправильно поняты), я бы не сказал, что «это неправильное представление распространилось» . Или, по крайней мере, мне не кажется, что цель этих трех примеров состоит в том, чтобы утверждать, что Y должен нормально распределяться (хотя я действительно помню, что эта проблема уже возникала здесь, на stackexchange, обмене между нормально распределенными ошибками и нормально распределенной переменной ответа это легко сделать).

Таким образом, предположение о том, что «Y должен быть нормально распределен», мне кажется не похожим на широко распространенное заблуждение / заблуждение (как в чем-то, что распространяется как красная сельдь), но больше похоже на общую ошибку (которая не распространяется, но каждый раз делается независимо) ).

Дополнительный комментарий

Пример ошибки на этом сайте в следующем вопросе

Что если остатки нормально распределены, а у нет?

Я бы посчитал это вопросом для начинающих. Его нет в таких материалах, как материалы курса Penn State, веб-сайт Wikipedia, и недавно он отметил в комментариях книгу «Расширение линейной регрессии с помощью R».

Авторы этих работ правильно понимают материал. Действительно, они используют такие фразы, как «Y должен быть нормально распределен», но на основании контекста и используемых формул вы можете видеть, что все они означают «Y, условно для X, должны быть нормально распределены», а не «маргинальный Y должен быть нормально распределенным ». Они не ошибаются в самой идее, и, по крайней мере, идея не широко распространена среди статистиков и людей, которые пишут книги и другие материалы курса. Но неправильное прочтение их двусмысленных слов действительно может привести к неправильному пониманию.

— Секст Эмпирик
источник

+1 Тем не менее, я думаю, что мы все видели много вопросов, утверждающих предельную нормальность Y здесь ... есть некоторое распространение неправильного представления. :)

— Алексис

Да, я согласен, что предположение о «нормально распределенном» встречается часто (я не мог легко найти примеры, но это может быть потому, что люди описывают эти вещи между строк, а не с помощью простых ключевых слов). Тем не менее, я считаю, что это нечто «общее», а не « распространяющееся ». И, по крайней мере, три примера, приведенные ОП, не очень сильны (не сильны в том смысле, что указывают на распространение заблуждения, хотя они описывают патологическое использование языка и то, как могут возникать ошибки).

— Секст Эмпирик

@Martijn Weterings: Я хотел бы не согласиться с вашим утверждением «Я бы не сказал, что это заблуждение распространилось». В своей книге «Расширение линейной регрессии с помощью R», используемой в качестве необходимого чтения в ряде программ статистики для выпускников, Джулиан Фарауэй утверждает на странице xi в предисловии к этой книге, что «Стандартная линейная модель не может обрабатывать ненормальные ответы, y, такие как как рассчитывает или пропорции ".

— ColorStatistics

n - 1

$n-1$

(r - 1) (c - 1)

$(r-1)(c-1)$

$y = \beta_0 + \beta_1 x_1 + ... \beta_p x_p + \epsilon$ $\epsilon$ Ответ должен иметь конкретное распределение, которое упоминается.

— Секст Эмпирик

Есть ли хорошее объяснение тому, как / почему это заблуждение распространилось? Известно ли его происхождение?

Мы обычно преподаем магистрантам «упрощенную» версию статистики во многих дисциплинах. Я занимаюсь психологией, и когда я пытаюсь сказать студентам, что p-значения являются «вероятностью данных - или более экстремальных данных - учитывая, что нулевая гипотеза верна», коллеги говорят мне, что я раскрываю больше деталей, чем мне нужно покрывать. Что я делаю это более трудным, чем это должно быть, и т. Д. Так как учащиеся в классах имеют такой широкий диапазон комфорта (или его отсутствия) со статистикой, преподаватели обычно делают это простым: «Мы считаем, что это надежный вывод, если p <.05, "например, вместо того, чтобы давать им фактическое определение p- значения.

Я думаю, что именно здесь объясняется, почему распространено неправильное представление. Например, вы можете написать модель как:

$Y = \beta_0 + \beta_1X + \epsilon$ $\epsilon \sim \text{N}(0, \sigma^2_\epsilon)$

Это может быть переписано как:

$Y|X \sim \text{N}(\beta_0 + \beta_1X, \sigma^2_\epsilon)$

Это означает, что «Y, условный для X, обычно распределяется со средним значением прогнозируемых значений и некоторой дисперсией».

Это трудно объяснить, так как люди могут просто сказать: «Y должен быть нормально распределен». Или когда им первоначально объяснили, люди неправильно поняли условную часть, поскольку это, честно говоря, сбивает с толку.

Поэтому, чтобы не делать вещи ужасно сложными, преподаватели просто упрощают то, что они говорят, чтобы не слишком запутывать большинство учеников. И затем люди продолжают свое статистическое образование или статистическую практику с этим заблуждением. Я сам не до конца понимал концепцию, пока не начал заниматься байесовским моделированием в Stan, что требует от вас написать свои предположения следующим образом:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Кроме того, во многих статистических пакетах с графическим интерфейсом (глядя на вас, SPSS) легче проверить, нормально ли распределено предельное распределение (простая гистограмма), чем проверить, нормально ли распределены остатки (запустить регрессию, сохранить остатки, запустить гистограмму этих остатков).

Таким образом, я думаю, что неправильное представление в основном связано с тем, что преподаватели пытаются сбрить детали, чтобы не дать учащимся запутаться, стать подлинными и понятными, чтобы люди не выучили правильный путь, и оба эти фактора подкреплены простотой проверки предельной нормальности в самые удобные статистические пакеты.

— Марк Уайт
источник

Я думаю, что вы правы. Многие люди не понимают условную часть. Они просто думают, что нормально распределены.

— SmallChess,

Я согласен, что это может быть «один» из режимов, по которым эта ошибка возникает / распространяется. Тем не менее, материал курса Penn State мне кажется не из-за этого «преднамеренного» упрощения, а также из-за небрежного написания нотации. Это немного похоже на крошечные (конечно) заметки. Или как комментарии к stackexchange, упрощения в языке. В некоторых местах они используют правильные слова. (лично мои схемы / диаграммы лучше, чем мои слова / формулы, но это не значит, что то, что я пишу, если оно неверно, обязательно является неправильной идеей)

— Sextus Empiricus

@MartijnWeterings Договорились - очень легко запутать кого-то, не используя определенный язык. Трудно всегда быть конкретным с вашим языком в чем-то абстрактном, как статистические предположения, и многие умные люди делают простые ошибки, что приводит к распространенным заблуждениям, подобным этому.

— Марк Уайт

MarkWhite, я действительно ценю внимание, которое вы уделяете тому, как мы преподаем ... Я думаю, что это говорит о заинтересованности ОП в "распространении заблуждения" (в дополнение к нюансам того, что есть, а что нет, ).

— Алексис

Регрессионный анализ труден для начинающих, потому что есть разные результаты, которые подразумеваются разными исходными предположениями. Более слабые исходные предположения могут оправдать некоторые результаты, но вы можете получить более сильные результаты, если добавите более строгие предположения. Люди, которые не знакомы с полным математическим выводом результатов, часто могут неправильно понять необходимые предположения для результата, либо слишком слабо излагая свою модель, чтобы получить требуемый результат, либо выдвигая некоторые ненужные предположения, полагая, что они необходимы для результата ,

Хотя можно получить более сильные допущения для получения дополнительных результатов, регрессионный анализ связан с условным распределением вектора ответа. Если модель выходит за рамки этого, то она входит в территорию многомерного анализа и не является строго (просто) регрессионной моделью. Ситуация еще более усложняется тем фактом, что в регрессии принято ссылаться на результаты распределения, не всегда тщательно указывая, что они являются условными распределениями (учитывая объясняющие переменные в матрице плана). В случаях, когда модели выходят за рамки условных распределений (предполагая предельное распределение для поясняющих векторов), пользователь должен быть осторожным, чтобы указать это различие; к сожалению, люди не всегда осторожны с этим.

Модель линейной регрессии гомоскедаста. Самая ранняя отправная точка, которая обычно используется, состоит в том, чтобы принять форму модели и первые два момента ошибки без какого-либо предположения о нормальности вообще:

Y = x β + ε E (ε | x) = 0 V (ε | x) \propto I .

$\boldsymbol{Y} = \boldsymbol{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}\quad \quad \mathbb{E}(\boldsymbol{\varepsilon} | \boldsymbol{x}) = \boldsymbol{0} \quad \quad \mathbb{V}(\boldsymbol{\varepsilon} | \boldsymbol{x}) \propto \boldsymbol{I}.$

Эта настройка достаточна для того, чтобы вы могли получить оценку OLS для коэффициентов, несмещенную оценку для дисперсии ошибок, остатки и моменты всех этих случайных величин (в зависимости от объясняющих переменных в матрице плана). Он не позволяет вам получить полное условное распределение этих величин, но он допускает обращение к асимптотическим распределениям, если велико, и некоторые дополнительные предположения сделаны для ограничивающего поведения . Чтобы пойти дальше, принято предполагать конкретную форму распределения для вектора ошибок. $n$ $\boldsymbol{x}$

Нормальные ошибки: Большинство обработок гомоскедастической модели линейной регрессии предполагают, что вектор ошибок нормально распределен, что в сочетании с предположениями момента дает:

ε | x \sim N (0, σ^{2} I) .

$\boldsymbol{\varepsilon} | \boldsymbol{x} \sim \text{N}(\boldsymbol{0}, \sigma^2 \boldsymbol{I}).$

Это дополнительное допущение является достаточным, чтобы гарантировать, что оценщик OLS для коэффициентов является MLE для модели, и это также означает, что оценщик коэффициента и остатки нормально распределены, а оценщик для дисперсии ошибки имеет масштабированное распределение хи-квадрат (все условные объяснительные переменные в матрице проектирования). Это также гарантирует, что вектор ответа условно нормально распределен. Это дает результаты распределения, зависящие от объясняющих переменных в анализе, что позволяет строить доверительные интервалы и проверки гипотез. Если аналитик хочет сделать выводы о предельном распределении ответа, он должен пойти дальше и предположить распределение для объясняющих переменных в модели.

Совместно-нормальные объяснительные переменные. Некоторые методы лечения модели гомоскедастической линейной регрессии выходят за рамки стандартных методов лечения и не требуют фиксированных объясняющих переменных. (Возможно, это переход от регрессионного моделирования к многомерному анализу.) Наиболее распространенная модель такого рода предполагает, что поясняющие векторы являются случайными векторами, сочетающимися с нормальным IID. Пусть будет м пояснительным вектором ( й строкой матрицы дизайна), который мы имеем: $\boldsymbol{X}_{(i)}$ $i$ $i$

X_{(1)}, . . ., X_{(n)} \sim IID N (μ_{X}, Σ_{X}) .

$\boldsymbol{X}_{(1)}, ..., \boldsymbol{X}_{(n)} \sim \text{IID N}(\boldsymbol{\mu}_X, \boldsymbol{\Sigma}_X).$

Это дополнительное допущение является достаточным для обеспечения того, чтобы вектор ответа был незначительно нормально распределен. Это сильное предположение, и оно обычно не навязывается в большинстве проблем. Как уже говорилось, это выводит модель за пределы регрессионного моделирования и превращает ее в многомерный анализ.

— Восстановить Монику
источник

Я нашел очень проницательным то, как вы вводили более сильные предположения одно за другим и описывали последствия.

— ColorStatistics