Читая учебник по регрессии, я обнаружил следующий абзац:
Наименьших квадратов оценка вектора коэффициентов линейной регрессии ( )
которая, если рассматривать ее как функцию данных (рассматривая предикторы X как константы), является линейной комбинацией данных. Используя центральную предельную теорему, можно показать, что распределение β будет приблизительно многомерным нормальным, если размер выборки велик.
Я определенно что-то упускаю из текста, но я не понимаю, как у одного значения быть распределение? Как генерируются множественные значения β для получения распределения, указанного в тексте?
4
- вектор коэффициентов регрессии - проясняет ли это путаницу?
—
Макрос
Может помочь заметить, что считается постоянной матрицей в настройке регрессии и что y является реализацией (векторной) случайной величины. Этот бит о CLT, тем не менее, не совсем корректен: он полагается либо на H, имеющий определенную структуру, которая иногда фактически не происходит даже с огромными наборами данных, либо насам y , являющийся многомерным нормальным (но тогда нет необходимости вызвать CLT).
—
whuber
@Taylor Но как вы узнаете распределение B, если единственное, что я знаю, это то, что «размер выборки велик»?
—
выше
@Taylor Отдельный компонент бета-фактора будет иметь при распределении, только если компонент ошибки в регрессионной модели является гауссовым с 0 средним и постоянной дисперсией. В ненормальном случае вы не обязательно знаете его распределение при нулевой гипотезе, но оно все равно может быть асимптотически нормальным. Однако, как говорится в wuber, центральная предельная теорема может не выполняться, потому что это средневзвешенное значение, и мы должны знать, что веса не меняются с размером выборки таким образом, который позволяет нескольким членам доминировать в сумме.
—
Майкл Р. Черник