Рассмотрим простую линейную модель:
Yy = X ′ ββ + ϵ
где ε я ~ я . я . д .N ( 0 , сг 2 )
Мой вопрос заключается в том, что, учитывая E ( X ′ X )
* Я предполагал, написав это, что получение E ( R 2 )
EDIT1
используя решение, полученное Стефаном Лораном (см. ниже), мы можем получить нетривиальную верхнюю оценку на E ( R 2 )
Стефан Лоран вывел следующее: R 2 ∼ B ( p - 1 , n - p , λ ),
λ = | | X ′ β - E ( X ) ′ β 1 n || 2σ 2
Так
E ( R 2 ) = E ( χ 2 p - 1 ( λ )χ 2 p - 1 ( λ ) + χ 2 n - p )≥E(χ 2 p - 1 (λ))E ( χ 2 p - 1 ( λ ) ) + E ( χ 2 n - p )
где χ 2 k ( λ ) - нецентральный χ 2 с параметром λ и k степенями свободы. Так нетривиальным верхняя граница для Е ( R 2 ) является
λ + p - 1λ + n - 1
это очень туго (гораздо жестче, чем я ожидал, возможно):
например, используя:
rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)
среднее значение R 2 более 1000 моделирований . Теоретическая верхняя граница выше дает . Оценка представляется одинаково точной для многих значений R0.960819
0.9609081
2 . Действительно поразительно!
EDIT2:
после дальнейших исследований выясняется, что качество приближения верхней границы к E ( R 2 ) будет улучшаться с увеличением λ + p (и при прочих равных условиях λ возрастает с ростом n ).