Все зависит от того, как вы оцениваете параметры . Обычно, оценки являются линейными, что означает, что остатки являются линейными функциями данных. Когда ошибки есть нормальное распределение, то так делают данные, откуда так что невязки ˙U I ( I индексы МИОНы данных, конечно).uiu^ii
Возможно (и логически возможно), что когда остатки имеют примерно нормальное (одномерное) распределение, это происходит из -за ненормального распределения ошибок. Однако при использовании методов оценки методом наименьших квадратов (или максимального правдоподобия) линейное преобразование для вычисления остатков является «умеренным» в том смысле, что характеристическая функция (многовариантного) распределения остатков не может сильно отличаться от ср ошибок. ,
На практике нам никогда не нужно, чтобы ошибки были точно нормально распределены, так что это неважная проблема. Гораздо важнее ошибки: 1) все их ожидания должны быть близки к нулю; (2) их корреляции должны быть низкими; и (3) должно быть приемлемо небольшое количество отдаленных значений. Чтобы проверить это, мы применяем различные тесты соответствия, корреляционные тесты и тесты выбросов (соответственно) для остатков. Тщательное регрессионное моделирование всегда включает в себя выполнение таких тестов (которые включают в себя различные графические визуализации остатков, например, автоматически предоставляемые методом R plot
при применении к lm
классу).
Еще один способ решения этого вопроса - моделирование из гипотетической модели. Вот некоторый (минимальный, одноразовый) R
код для выполнения этой работы:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
Для случая п = 32, эта вероятность накладного участок 99 наборов остатков показывают , что они имеют тенденцию быть близко к распределению ошибок (который является стандартным нормальным), потому что они равномерно расщеплять к опорной линии :y=x
Для случая n = 6 меньший медианный наклон на графиках вероятности указывает на то, что отклонения имеют немного меньшую дисперсию, чем ошибки, но в целом они имеют тенденцию быть нормально распределенными, поскольку большинство из них достаточно хорошо отслеживают опорную линию (учитывая небольшое значение ):n