Многомерная линейная регрессия против нескольких одномерных моделей регрессии

В настройках одномерной регрессии мы пытаемся моделировать

Y знак равно Икс β + N о я s е

$y = X\beta +noise$

где вектор из наблюдений, а матрица проектирования с предикторами. Решение: . $y \in \mathbb{R}^n$ $n$ $X \in \mathbb{R}^{n \times m}$ $m$ $\beta_0 = (X^TX)^{-1}Xy$

В настройках многомерной регрессии мы пытаемся моделировать

Y знак равно Икс β + N о я s е

$Y = X\beta +noise$

где - это матрица из наблюдений и различных скрытых переменных. Решение: . $y \in \mathbb{R}^{n \times p}$ $n$ $p$ $\beta_0 = (X^TX)^{-1}XY$

Мой вопрос: как это отличается от выполнения другой одномерной линейной регрессии? Я читал здесь, что в последнем случае мы принимаем во внимание корреляцию между зависимыми переменными, но я не вижу этого по математике. $p$

regression multivariate-analysis multivariate-regression

— Рой
источник

См. Теорему Фриша-Во-Ловелла.

— rsm

@amorfati: Так что, если я правильно понимаю, они одинаковы. Почему люди относятся к ним по-разному?

— Рой

В настройках классической многомерной линейной регрессии мы имеем модель:

Y знак равно Икс β + ε

$Y = X \beta + \epsilon$

где представляет независимые переменные, представляет множественные переменные отклика, а - это термин iid гауссовского шума. Шум имеет нулевое среднее значение и может быть коррелирован по переменным отклика. Максимальное правдоподобное решение для весов эквивалентно решению для наименьших квадратов (независимо от шумовых корреляций) [1] [2]: $X$ $Y$ $\epsilon$

\hat{β} знак равно ({Икс}^{T} Икс)^{- 1} {Икс}^{T} Y

$\hat{\beta} = (X^T X)^{-1} X^T Y$

Это эквивалентно независимому решению отдельной задачи регрессии для каждой переменной ответа. Это видно из того факта, что й столбец (содержащий веса для й выходной переменной) можно получить умножением на столбец (содержит значения переменной ответа ). $i$ $\hat{\beta}$ $i$ $(X^T X)^{-1} X^T$ $i$ $Y$ $i$

Однако многомерная линейная регрессия отличается от отдельного решения отдельных задач регрессии, поскольку процедуры статистического вывода учитывают корреляции между переменными множественного отклика (например, см. [2], [3], [4]). Например, ковариационная матрица шума отображается в распределениях выборки, статистике испытаний и оценках интервалов.

Другое различие возникает, если мы разрешаем каждой переменной ответа иметь свой собственный набор ковариат:

Y_{я} знак равно {Икс}_{я} β_{я} + ε_{я}

$Y_i = X_i \beta_i + \epsilon_i$

где представляет ую переменную ответа, а и представляют соответствующий ей набор ковариат и шумового члена. Как указано выше, условия шума могут коррелироваться между переменными отклика. В этом параметре существуют оценщики, которые более эффективны, чем метод наименьших квадратов, и их нельзя сводить к решению отдельных задач регрессии для каждой переменной отклика. Например, см. [1]. $Y_i$ $i$ $X_i$ $\epsilon_i$

использованная литература

Зеллнер (1962) . Эффективный метод оценки, казалось бы, не связанных регрессий и тестов на смещение агрегации.
Хелвиг (2017) . Многомерная линейная регрессия [Слайды]
Fox and Weisberg (2011) . Многомерные линейные модели в R. [Приложение к: Сопоставление R с прикладной регрессией]
Майтра (2013) . Модели многомерной линейной регрессии. [Слайды]

— user20160
источник

Спасибо, теперь стало понятнее. У вас есть ссылка на эту формулировку? Я встречал только форму наименьших квадратов. Кроме того, вы знаете, что пакет Python реализует это?

— Рой

Вторая ссылка запрос. Принимается ли корреляция как просто ковариация результатов, или вы узнаете какой-то вид условной ковариации?

— generic_user

Я не уверен на 100%, что @ user20160 имел в виду это, но я думаю, что они имели в виду оценку уравнений / обобщенные уравнения оценки. EE / GEE согласуются, когда ковариационная структура не указана, и вы также можете установить ожидаемую ковариационную структуру. Тем не менее, эти модели итеративно оцениваются в отличие от МНК с замкнутой формой. Вы должны быть в состоянии оценить GEE / EE в Python, но я не знаю пакетов.

— Якобус

@Roy Я переписал ответ и добавил ссылки. Мой оригинальный пост предполагал, что это последний абзац исправленного поста. Я постараюсь добавить больше деталей позже.

— user20160