Каково распределение


26

Каково распределение коэффициента детерминации или R в квадрате, R2 , в линейной однофакторной множественной регрессии при нулевой гипотезе H0:β=0 ?

Как это зависит от количества предикторов k и количества выборок n>k ? Есть ли выражение для закрытой формы для режима этого распределения?

В частности, у меня есть ощущение, что для простой регрессии (с одним предиктором x ) это распределение имеет нулевой режим, но для множественной регрессии режим имеет ненулевое положительное значение. Если это действительно так, есть ли интуитивное объяснение этого «фазового перехода»?


Обновить

Как показал @Alecos ниже, распределение действительно достигает максимума в нуле, когда k=2 и k=3 и не в нуле, когда k>3 . Я чувствую, что должен быть геометрический взгляд на этот фазовый переход. Рассмотрим геометрический вид МНК: y представляет собой вектор в Rn , X определяет k - мерное подпространство там. МНК составляет проецировании y на это подпространство, и R2 является квадратом косинус угла между y и его проекцией у .y^

Теперь из ответа @ Alecos следует, что если все векторы являются случайными, то распределение вероятностей этого угла достигнет максимума при 90 для k=2 и k=3 , но будет иметь моду при некотором другом значении <90 для k>3 . Зачем?!


Обновление 2: я принимаю ответ @ Alecos, но все еще чувствую, что мне здесь не хватает важного понимания. Если кто-нибудь когда-либо предложит какой-либо другой (геометрический или нет) взгляд на это явление, которое сделало бы его «очевидным», я буду счастлив предложить щедрость.


1
Готовы ли вы предположить, что ошибка нормальна?
Дмитрий Васильевич Мастеров

1
Да, я предполагаю, что нужно сделать это, чтобы сделать этот вопрос ответственным (?).
говорит амеба: восстанови Монику


1
@Khashaa: на самом деле, я должен признать, что нашел эту страницу блогов до того, как опубликовать свой вопрос здесь. Честно говоря, я все еще хотел обсудить это явление на нашем форуме, поэтому сделал вид, что не видел этого.
говорит амеба: восстанови Монику

1
Сильно связанный CV вопрос stats.stackexchange.com/questions/123651/…
Алекос Пападопулос

Ответы:


33

Для конкретной гипотезы (что все коэффициенты регрессора равны нулю, не считая постоянного члена, который не рассматривается в этом тесте) и под нормальностью мы знаем (см., Например, Maddala 2001, p. 155, но обратите внимание, что там подсчитывает регрессоры без постоянного члена, поэтому выражение выглядит немного иначе) что статистикаk

распределяется как центральнаяF(k-1,n-k)случайная величина.

F=nkk1R21R2
F(k1,nk)

Обратите внимание, что хотя мы не проверяем постоянное слагаемое, учитывает его.k

Перемещая вещи,

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R2=(k1)F(nk)+(k1)F

Но правая часть распространяется как бета-версия , а именно

R2Beta(k12,nk2)

Режим этого распределения

modeR2=k121k12+nk22=k3n5

КОНЕЧНЫЙ И УНИКАЛЬНЫЙ РЕЖИМ
Из приведенного выше соотношения мы можем сделать вывод, что для распределения, чтобы иметь уникальный и конечный режим, мы должны иметь

k3,n>5

Это согласуется с общим требованием к бета-распределению, которое

{α>1,β1},OR{α1,β>1}

как можно сделать вывод из этой темы резюме или читать здесь .
Обратите внимание, что если , мы получаем равномерное распределение, поэтому все точки плотности являются модами (конечными, но не единственными). Что создает вопрос: почему, если k = 3 , n = 5 , R 2 распределяется как U ( 0 , 1 ) ?{α=1,β=1}k=3,n=5R2U(0,1)

ПОСЛЕДСТВИЯ
Предположим, что у вас есть регрессоров (включая константу) и n = 99 наблюдений. Довольно хорошая регрессия, без переоснащения. затемk=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

и график плотности

введите описание изображения здесь

Интуиция, пожалуйста: это распределение в предположении, что регрессор на самом деле не принадлежит регрессии. Таким образом, а) распределение не зависит от регрессоров, б) при увеличении размера выборки его распределение концентрируется в направлении нуля, поскольку увеличение объема информации приводит к изменчивости малых выборок, что может привести к некоторому «соответствию», но также и в) к числу нерелевантных регрессоров. увеличивается для данного размера выборки, распределение концентрируется в направлении 1 , и мы наблюдаем явление «ложного соответствия». R21

Но также обратите внимание, как «легко» отклонить нулевую гипотезу: в конкретном примере для совокупная вероятность уже достигла 0,99 , поэтому полученный R 2 > 0,13 отвергнет ноль «незначительной регрессии» при уровень значимости 1 %.R2=0.130.99R2>0.131

ДОБАВЛЕНИЕ
Чтобы ответить на новый вопрос, касающийся режима распределения , я могу предложить следующую точку зрения (не геометрическую), которая связывает его с явлением «ложного соответствия»: когда мы запускаем метод наименьших квадратов в наборе данных по сути, мы решаем систему из n линейных уравнений с k неизвестными (единственное отличие от математики в старших классах состоит в том, что тогда мы называли «известные коэффициенты», что в линейной регрессии мы называем «переменными / регрессорами», «неизвестными х», что мы теперь называем «неизвестными коэффициентами» и «постоянными членами», которые мы называем «зависимой переменной»). Пока к < пR2nkk<nсистема переопределена, и нет точного решения, только приблизительного - и разница проявляется как «необъяснимая дисперсия зависимой переменной», которая фиксируется . Если k = n, система имеет одно точное решение (при условии линейной независимости). В промежутке, когда мы увеличиваем число k , мы уменьшаем «степень переопределения» системы и «движемся» к единственному точному решению. С этой точки зрения, имеет смысл, почему R 2 резко возрастает с добавлением нерелевантных регрессий, и, следовательно, почему его мода постепенно перемещается к 1 , когда k увеличивается для данной1R2k=nkR21k .n


1
Это математическое. При первый параметр бета-распределения (« α » в стандартных обозначениях) становится меньше единицы. В этом случае бета-версия не имеет конечного режима, поэкспериментируйте с keisan.casio.com/exec/system/1180573226, чтобы увидеть, как меняются формы. k=2α
Алекос Пападопулос

1
@Alecos Отличный ответ! (+1) Могу ли я настоятельно рекомендовать вам добавить в свой ответ требование существования режима? Обычно это обозначается как и β > 1, но более тонко, это нормально, если равенство выполняется в одном из двух ... Я думаю, что для наших целей это становится k 3 и n k + 2 и по крайней мере один из это неравенство строгое . α>1β>1k3 nk+2
Серебряная рыба

2
@ Khashaa За исключением случаев, когда теория требует этого, я никогда не исключаю пересечение из регрессии - это средний уровень зависимой переменной, регрессоров или вообще никаких регрессоров (и этот уровень обычно положителен, так что это будет глупо сделанная мною ошибочная спецификация опустите это). Но я всегда исключаю его из F-критерия регрессии, поскольку меня волнует не то, имеет ли зависимая переменная ненулевое безусловное среднее значение, а наличие у регрессоров какой-либо объяснительной силы в отношении отклонений от этого среднего.
Алекос Пападопулос

1
+1! Есть ли результаты для распределения для ненулевого β j ? R2βj
Кристоф Ханк


18

Я не буду восстанавливать распространение в отличном ответе @ Alecos (это стандартный результат, см.Здесьдля другого хорошего обсуждения), но я хочу заполнить более подробно о последствиях! Во-первых, как выглядит нулевое распределениеR2для диапазона значенийnиk? График в ответе @ Alecos достаточно репрезентативен для того, что происходит в практических множественных регрессиях, но иногда понимание легче получить из небольших случаев. Я включил среднее значение, режим (где он существует) и стандартное отклонение. График / таблица заслуживают хорошего глазного яблока:лучше всего просматривать в полном размере. Я мог бы включить меньше аспектов, но картина была бы менее ясной; Я добавилBeta(k12,nk2)R2nkRкод, чтобы читатели могли экспериментировать с различными подмножествами и k .nk

Распределение R2 для небольших размеров выборки

Значения параметров формы

Цветовая схема графика показывает, является ли каждый параметр формы меньше одного (красного), равно одному (синему) или больше одного (зеленого). Левая часть показывает значение тогда как β справа. Поскольку α = k - 1αβ , его значение увеличивается в арифметической прогрессии на общую разницу1α=k12 по мере продвижения вправо от столбца к столбцу (добавить регрессор к нашей модели)тогда как при фиксированномп,& beta=п-к12n уменьшается на1β=nk2 . Итогоα+β=n-112 фиксируется для каждой строки (для данного размера выборки). Если вместо этого мы фиксируемkи перемещаемся вниз по столбцу (увеличиваем размер выборки на 1), тоαостается постоянным, аβувеличивается на1α+β=n12kαβ . В терминах регрессииα- это половина числа регрессоров, включенных в модель, аβ- это половина остаточных степеней свободы. Для определения формы распределения нас особенно интересует, гдеαилиβравны единице.12αβαβ

Алгебра проста для : k - 1αтак чтоk=3. Это действительно единственный столбец фасетного графика, заполненный синим цветом слева. Точно так жеα<1дляk<3(столбецk=2слева красный) иα>1дляk>3(начиная сстолбцаk=4, левая сторона зеленого цвета).k12=1k=3α<1k<3k=2α>1k>3k=4

Для имеем n - kβ=1следовательно,k=n-2. Обратите внимание, как эти случаи (отмеченные синей правой стороной) разрезают диагональную линию поперек фасетного графика. Приβ>1получаемk<n-2(графики с зеленой левой стороной лежат слева от диагональной линии). Дляβ<1нам нужноk>n-2, что включает в себя только самые правые случаи на моем графике: приn=kмы имеемβ=0и распределение вырождено, ноnnk2=1k=n2β>1k<n2β<1k>n2n=kβ=0 где β = 1n=k1 нанесено (правая сторона красного цвета).β=12

Так как PDF это f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

Симметрии

Одна из наиболее привлекательных особенностей графика - это уровень симметрии, но когда используется бета-распределение, это не должно удивлять!

α=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9)R2=0.5k=n+12R2R2=0R2=1k

n(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)x=0.5αk,n=k12βk,n=nk2k=nk+1

αk,n=(nk+1)12=nk2=βk,n
βk,n=n(nk+1)2=k12=αk,n

k=k

nYR2k11R2k1

Специальные распределения

k=nβ=0β0P(R2=1)=1

k=2n=3Beta(12,12)α=βα<1β<1

Beta(1,1)R2knα=β=1k=3n=5

α>1β=1f(x;α,β)xα1(1x)β1=xα1k=n2k>3k=3n>5R2H0α=1β>1

(k=5,n=7)(k=3,n=7)αβ21=1

Режим

α>1β>1f(x;α,β)f(0)=f(1)=0α1α+β2knk>3n>k+2k3n5

β=1k=n2k>3n>5(n2)3n5=1α=1β>1k=3n>533n5=0α=β=1k=3n=53355=00

n=kβ<1n=k1f(x)x1α<1k=2f(x)x0k=2n=3

Означать

R2k1n1k=nαα+βnα+βα

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

Код для участков

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
Действительно светящаяся визуализация. +1
Хашаа

0+x0

1
@amoeba из графиков, которые мы хотели бы сказать, «значения около 0 наиболее вероятны» (или 1). Но ответ Алекоса также самодостаточен и согласуется со многими авторитетами (люди расходятся во мнениях относительно того, что делать с полной остановкой 0 и 1, не говоря уже о том, могут ли они считаться модой!). Мой подход к режиму отличается от Alecos главным образом потому, что я использую условия на альфа и бета, чтобы определить, где формула применима, вместо того, чтобы взять мою отправную точку в качестве формулы и увидеть, какие k и n дают разумные ответы.
Серебряная рыбка

1
kn

nk=3k>3f(x)x(k3)/2(1x)(nk2)/2k=3f(x)(1x)(n5)/2n>5k=4f(x)x1/2(1x)(n6)/2kxxα1f(0)=0
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.