Что если остатки нормально распределены, а у нет?


110

У меня странный вопрос. Предположим, что у вас есть небольшая выборка, в которой зависимая переменная, которую вы собираетесь анализировать с помощью простой линейной модели, сильно искажена. Таким образом, вы предполагаете, что не является нормально распределенным, потому что это приведет к нормально распределенному . Но когда вы вычисляете график QQ-Normal, есть доказательства того, что остатки обычно распределяются. Таким образом, любой может предположить, что термин ошибки обычно распределен, хотя нет. Так что же это значит, когда термин ошибки кажется нормально распределенным, а нет?uyyy

Ответы:


143

Разумно, чтобы остатки в задаче регрессии были нормально распределены, даже если переменная отклика - нет. Рассмотрим одномерную регрессионную задачу, где . так что модель регрессии является подходящей, и далее предположим, что истинное значение . В этом случае, хотя остатки модели истинной регрессии являются нормальными, распределение зависит от распределения , так как условное среднее является функцией . Если в наборе данных много значений , близких к нулю и постепенно уменьшающихся по мере увеличения значения , то распределениеβ = 1 y x y x x x y x y xyN(βx,σ2)β=1yxyxxxy будет перекошен влево. Если значения распределены симметрично, то будет распределяться симметрично и т. Д. Для задачи регрессии мы только предполагаем, что отклик в норме зависит от значения .xyx


9
(+1) Я не думаю, что это может повторяться достаточно часто! Смотрите также ту же проблему, которая обсуждалась здесь .
Вольфганг

1
Я понимаю ваш ответ, и это звучит правильно. По крайней мере, вы заработали много положительных голосов :) Но я совсем не счастлив. Итак, в вашем примере вы сделали следующие предположения: . Но когда я оцениваю регрессию, я оцениваю . Таким образом, должно быть дано во время оценки среднего значения. Из этого следует, что x - это значение, и мне все равно, как оно было распределено, до его реализации. Таким образом, является распределением . Я не понимаю, где влияет на . y N ( 1 x , σ 2 ) E ( y | x ) x y N ( v a l u e , σ 2 ) y x yβ=1yN(1x,σ2)E(y|x)xyN(value,σ2)yxy
MarkDollar

4
Я также довольно (приятно) удивлен количеством голосов; о) Чтобы получить данные, используемые для регрессионной модели, вы взяли выборку из некоторого совместного распределения , из которого вы хотите оценить . Однако, поскольку является (шумной) функцией , распределение выборок должно зависеть от распределения выборок для этого конкретного образца. Возможно, вас не интересует «истинное» распределение , но выборочное распределение y зависит от выборки x. E ( y | x ) y x y x xp(y,x)E(y|x)yxyxx
Дикран Marsupial

2
Рассмотрим пример оценки температуры ( ) как функции широты ( ). Распределение значений y в нашей выборке будет зависеть от того, где мы решили разместить метеостанции. Если мы разместим их все либо на полюсах, либо на экваторе, то получим бимодальное распределение. Если мы поместим их в регулярную равную сетку, мы получим унимодальное распределение значений y , хотя физика климата одинакова для обоих образцов. Конечно, это повлияет на вашу подходящую модель регрессии, и изучение такого рода вещей известно как «ковариатный сдвиг». HTHхyxyy
Дикран Marsupial

Я также подозреваю, что зависит от неявного предположения, что используемые данные были образцом iid из оперативного совместного распределения p ( y , x ) . E(y|x)p(y,x)
Дикран Marsupial

100

Конечно, @DikranMarsupial совершенно прав, но мне пришло в голову, что было бы неплохо проиллюстрировать его точку зрения, тем более что эта проблема, кажется, часто возникает. В частности, остатки регрессионной модели должны быть нормально распределены, чтобы значения p были правильными. Однако, даже если остатки нормально распределены, это не гарантирует, что будет (не то, что это имеет значение ...); это зависит от распределения . YX

Давайте рассмотрим простой пример (который я составляю). Допустим, мы тестируем препарат для изолированной систолической гипертонии (т. Е. Верхнее значение артериального давления слишком высокое). Далее давайте укажем, что систолический bp обычно распределяется в нашей популяции пациентов со средним значением 160 & SD, равным 3, и что для каждого мг препарата, который пациенты принимают каждый день, систолический bp снижается на 1 мм рт. Другими словами, истинное значение равно 160, а равно -1, а истинная функция генерирования данных: β 1 B P s y s = 160 - 1 × суточная доза препарата + εβ0β1X

BPsys=1601×daily drug dosage+εwhere εN(0,9)
В нашем фиктивном исследовании 300 пациентов были случайным образом назначены для приема 0 мг (плацебо), 20 мг или 40 мг этого нового лекарства в день. (Обратите внимание, что обычно не распределяется.) Затем, после адекватного периода времени, в течение которого лекарство вступит в силу, наши данные могут выглядеть следующим образом: X

введите описание изображения здесь

(Я встряхнул дозировки, чтобы точки не перекрывались настолько сильно, что их было трудно различить.) Теперь давайте проверим распределения (то есть, это предельное / исходное распределение) и остатки: Y

введите описание изображения здесь

Диаграммы qq показывают нам, что не является дистанционно нормальным, но что остатки достаточно нормальны. Графики плотности ядра дают нам более интуитивно понятную картину распределений. Ясно, что является тримодальным , тогда как остатки выглядят так, как будто должно выглядеть нормальное распределение. YYY

YXp<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

введите описание изображения здесь

Эти результаты показывают, что все работает хорошо.

X YX


1
Таким образом, допущение, что остатки распределяются нормально, только для p-значений, чтобы быть корректным? Почему р-значения могут пойти не так, если остаточные значения не являются нормальными?
авокадо

3
@loganecolss, это может быть лучше, как новый вопрос. Во всяком случае, да, это должно делать с / правильные значения р. Если ваши остатки являются достаточно ненормальными, а ваш N - низким, то распределение выборки будет отличаться от того, каким оно теоретически считается. Поскольку p-значение - это то, сколько из этого распределения выборки выходит за пределы вашей тестовой статистики, p-значение будет неправильным.
Gung

0

XYX


3
Предельное распределение ответа вовсе не «бессмысленно»; это предельное распределение ответа (и часто должно указывать на модели, отличные от обычной регрессии с нормальными ошибками). Вы правы, подчеркивая, что условные распределения важны, как только мы развлекаем данную модель, но это не добавляет полезного к существующим отличным ответам.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.