«Y должен быть нормально распределен»
должен?
В тех случаях, когда вы упоминаете, что это неаккуратный язык (сокращенно «ошибка в Y должна быть нормально распределена» ), но на самом деле (сильно) не говорится, что ответ должен быть нормально распределен, или, по крайней мере, это не кажется мне, что их слова были предназначены так.
Материалы курса Penn State
говорит о «непрерывной переменной »Y , но также и о « », как в где мы можем рассматривать , то есть амебу, называемую в комментариях «условно», нормально распределенную,YiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
В статье используются и взаимозаменяемо. На протяжении всей статьи говорится о «распределении Y», например: YYi
однако в какой-то другой момент они также ссылаются на вместо :YiY
Зависимая переменная НЕ нуждается в нормальном распределении, но обычно она предполагает распределение из экспоненциального семейства (например, биномиальное, пуассоновское, полиномиальное, нормальное и т. Д.)Yi
Веб-страница со статистикой решений
очень краткое, упрощенное, стилизованное описание. Я не уверен, что вы должны относиться к этому серьезно. Например, это говорит о
... требует, чтобы все переменные были многомерными нормальными ...
так что это не просто переменная ответа,
а также «многомерный» дескриптор является расплывчатым. Я не уверен, как это интерпретировать.
Статья в википедии
имеет дополнительный контекст, объясненный в скобках:
Обычная линейная регрессия предсказывает ожидаемое значение заданной неизвестной величины (переменная отклика, случайная величина) как линейную комбинацию набора наблюдаемых значений (предикторов) . Это подразумевает, что постоянное изменение в предикторе приводит к постоянному изменению переменной отклика (то есть модели линейного отклика). Это целесообразно, когда переменная отклика имеет нормальное распределение (интуитивно, когда переменная отклика может изменяться по существу неограниченно в любом направлении без фиксированного «нулевого значения», или, в более общем случае, для любой величины, которая изменяется только на относительно небольшую величину, например, для человека высоты).
Это «не фиксированное нулевое значение», похоже, указывает на случай, когда линейная комбинация когда имеет бесконечную область (от минус бесконечности до плюс бесконечности), тогда как часто многие переменные имеют некоторые конечное значение отсечения (например, отсчеты, не допускающие отрицательных значений).y+ϵϵ∼N(0,σ)
Конкретная строка была добавлена 8 марта 2012 года , но обратите внимание, что первая строка статьи Википедии все еще гласит «гибкое обобщение обычной линейной регрессии, которая допускает переменные ответа, которые имеют модели распределения ошибок, отличные от нормального распределения» и не так много (не везде) неправильно.
Заключение
Итак, основываясь на этих трех примерах (которые действительно могут порождать неправильные представления или, по крайней мере, могут быть неправильно поняты), я бы не сказал, что «это неправильное представление распространилось» . Или, по крайней мере, мне не кажется, что цель этих трех примеров состоит в том, чтобы утверждать, что Y должен нормально распределяться (хотя я действительно помню, что эта проблема уже возникала здесь, на stackexchange, обмене между нормально распределенными ошибками и нормально распределенной переменной ответа это легко сделать).
Таким образом, предположение о том, что «Y должен быть нормально распределен», мне кажется не похожим на широко распространенное заблуждение / заблуждение (как в чем-то, что распространяется как красная сельдь), но больше похоже на общую ошибку (которая не распространяется, но каждый раз делается независимо) ).
Дополнительный комментарий
Пример ошибки на этом сайте в следующем вопросе
Что если остатки нормально распределены, а у нет?
Я бы посчитал это вопросом для начинающих. Его нет в таких материалах, как материалы курса Penn State, веб-сайт Wikipedia, и недавно он отметил в комментариях книгу «Расширение линейной регрессии с помощью R».
Авторы этих работ правильно понимают материал. Действительно, они используют такие фразы, как «Y должен быть нормально распределен», но на основании контекста и используемых формул вы можете видеть, что все они означают «Y, условно для X, должны быть нормально распределены», а не «маргинальный Y должен быть нормально распределенным ». Они не ошибаются в самой идее, и, по крайней мере, идея не широко распространена среди статистиков и людей, которые пишут книги и другие материалы курса. Но неправильное прочтение их двусмысленных слов действительно может привести к неправильному пониманию.