Являются ли нормально распределенные X и Y более вероятными в результате нормально распределенных остатков?


12

Здесь обсуждается неправильное толкование предположения о нормальности в линейной регрессии (что «нормальность» относится к X и / или Y, а не к остаткам), и автор спрашивает, возможно ли иметь ненормально распределенные X и Y и все еще имеют нормально распределенные остатки.

Мой вопрос: нормально ли распределены X и Y с большей вероятностью приводят к нормально распределенным остаткам? Было много похожих постов, но я не верю никому, кто задавал этот вопрос специально.

Я понимаю, что, возможно, это тривиальный вопрос, если нужно выполнить только одну регрессию, но не так, если есть несколько тестов. Скажем, у меня есть 100 переменных X, которые имеют одинаковый перекос, и я хочу проверить их все. Если бы я преобразовал их все в нормальное распределение, было бы вероятно, что у меня было бы меньше переменных X, нуждающихся в повторном рассмотрении (с различными / без преобразования) из-за ненормально распределенных остатков, или преобразование до регрессии было бы совершенно произвольным?


1
Чтобы ответить «с большей вероятностью», мы, вероятно, должны были бы сказать что-то о совместном распределении, а не только о полях.
Glen_b

Ответы:


15

Нет . Остатки являются значения условной на X (минус предсказанное среднее Y в каждой точке X ). Вы можете изменить X так , как вы хотите ( X + 10 , X - +1 / +5 , X / π ) и Y значения , которые соответствуют X значений в заданной точке в X не изменится. Таким образом, условное распределение Y (т. Е. Y | XYXYXXX+10X1/5X/πYXXYY|X) будет так же. То есть будет нормально или нет, как и раньше. (Чтобы понять эту тему более полно, это может помочь вам прочитать мой ответ здесь: что делать, если остатки нормально распределены, а Y нет? )

Что меняется может сделать ( в зависимости от характера преобразования данных вы используете) является изменение функциональной зависимости между X и Y . При нелинейном изменении X (например, для устранения перекоса) модель, которая была правильно задана ранее, станет неправильно заданной. Нелинейные преобразования X часто используются для линеаризации отношений между X и Y , чтобы сделать отношения более понятными или для решения другого теоретического вопроса. XXYXXXY

Для получения дополнительной информации о том, как нелинейные преобразования могут изменить модель, а также о вопросах, на которые отвечает модель (с акцентом на преобразование журналов), она может помочь вам прочитать эти прекрасные темы резюме:

XYβ^00Xβ^1 (m)=100×β^1 (cm)Y увеличится в 100 раз на 1 метр, а на 1 см).


Y YYλYX


XY

YXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

введите описание изображения здесь

На графиках мы видим, что оба маргинала выглядят достаточно нормальными, а совместное распределение выглядит достаточно двумерно нормальным. Тем не менее, однородность остатков проявляется в их qq-графике; оба хвоста отпадают слишком быстро относительно нормального распределения (как и должно быть).


0

Краткий ответ - в классической теории простой регрессии, X фиксирован и считается известным (см., Например, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), даже без каких-либо ошибок измерения, в противном случае ваша бета наименьших квадратов может быть смещенной и даже непоследовательной (см. https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measure_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

Что касается превращения X в переменную, то в Википедии по теореме Гаусса-Маркова очень кратко сказано:

«В большинстве случаев МНК данные X предполагаются фиксированными. Это предположение считается неуместным для преимущественно неэкспериментальной науки, такой как эконометрика. [2] Вместо этого предположения теоремы Гаусса – Маркова сформулированы условно для X »

которую я читаю как серьезное нелестное превращение науки в искусство или искусства / науки.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.