Линейная регрессия, условные ожидания и ожидаемые значения

Хорошо, так что немного помутнение некоторых вещей, любая помощь будет высоко ценится. Насколько я понимаю, модель линейной регрессии прогнозируется через условное ожидание

Е (Y | Икс) знак равно б + Икс б + е

$E(Y|X)=b+Xb+e$

Предполагаем ли мы, что и являются случайными переменными с некоторым неизвестным распределением вероятности? Насколько я понимаю, только остатки и предполагаемые бета-коэффициенты были случайными величинами. если это так, например, если ожирение и возраст, если мы возьмем значение условного ожидания , каково ожидаемое значение ожирения, если индивидуум составляет по выборке, мы бы просто возьмите среднее (среднее арифметическое) y для тех наблюдений, где ? но разве ожидаемое значение не означает, что мы должны умножить это на вероятность возникновения? но как в этом смысле мы находим вероятность $X$ $Y$ $Y =$ $X =$ $E(Y|X=35)$ $35$ $X=35$ $X$ переменная, встречающаяся, если она представляет что-то вроде возраста?
Если бы $X$ представлял что-то вроде обменного курса, было бы это классифицировано как случайное? с какой стати вы нашли бы ожидаемое значение этого, не зная вероятности, хотя? или будет ожидаемое значение равным среднему значению в пределе.
Если мы не предполагаем, что зависимые переменные сами являются случайными переменными, так как мы не упускаем вероятность, что мы предполагаем, что они? просто фиксированные значения или что-то? но если это так, как мы можем начать с неслучайной переменной? Что мы предполагаем о распределении независимых переменных?

Извините, если что-то не имеет смысла или очевидно для всех.

regression

— Уильям Карулли
источник

Коэффициент регрессии является неизвестной константой, а не случайной величиной (по крайней мере, в частом мире).

β

$\beta$

— Ричард Харди

что вы подразумеваете под условными ожиданиями? E (Y | X) просто означает Y с учетом X, то есть ожидаемое значение Y в X. Скажем, y = 5 + x, тогда вы E (Y | X = 5) равны 10. Я не получил вашу точку зрения с условное ожидание

— Замир Акимбеков

@RichardHardy, я понял, что, поскольку B является средним для выборочного распределения бета-версий, это случайная величина, характеризуемая нормальным распределением. Вы имеете в виду модель населения?

— Уильям Карулли

Да, популяционная модель.

— Ричард Харди

@WilliamCarulli Ричард имеет в виду разницу между параметром населения и оценочным параметром. Предполагаемый параметр действительно является случайной величиной, но (неизвестный) истинный параметр совокупности является фиксированным значением.

— Мэтью Друри

Ответы:

В вероятностной модели, лежащей в основе линейной регрессии, X и Y являются случайными величинами.

если это так, например, если Y = ожирение и X = возраст, если мы возьмем значение условного ожидания E (Y | X = 35), каково ожидаемое значение ожирения, если индивидуум составляет 35 по выборке, мы бы просто возьмите среднее (среднее арифметическое) y для тех наблюдений, где X = 35?

Вот так. В общем, вы не можете ожидать, что у вас будет достаточно данных для каждого конкретного значения X, или это может быть невозможно, если X может принимать непрерывный диапазон значений. Но концептуально это правильно.

но разве ожидаемое значение не означает, что мы должны умножить это на вероятность возникновения?

Это разница между безусловным ожиданием и условным ожиданием . Отношения между ними $E[Y]$ $E[Y \mid X = x]$

E [Y] = \sum_{x} E [Y ∣ X = x] P r [X = x]

$E[Y] = \sum_x E[Y \mid X = x] Pr[X = x]$

который является законом полного ожидания.

но как в этом смысле найти вероятность появления переменной X-значения, если она представляет что-то вроде возраста?

Как правило, вы не в линейной регрессии. Поскольку мы пытаемся определить , нам не нужно знать . $E[Y \mid X]$ $Pr[X = x]$

Если мы не предполагаем, что независимые переменные сами являются случайными переменными, поскольку мы не упускаем из виду вероятность, что мы предполагаем, что они есть? просто фиксированные значения или что-то?

Мы же считаем , что Y является случайной величиной. Один из способов думать о линейной регрессии - это модель вероятности для $Y$

Y ~ Икс β + N (0, σ)

$Y \sim X \beta + N(0, \sigma)$

Это говорит о том, что, когда вы знаете значение X, случайное изменение Y ограничивается слагаемым . $N(0, \sigma)$

— Мэтью Друри
источник

Большое вам спасибо за ваш комментарий, очень помог мне. веселит.

— Уильям Карулли

@WilliamCarulli Добро пожаловать! Не стесняйтесь задавать любые дополнительные вопросы, и я сделаю все возможное, чтобы ответить. Если я действительно прояснил все твои проблемы, ты тоже можешь это принять.

— Мэтью Друри

Это хороший пост. Тем не менее, я думаю, что любой ответ, который не признает, что

(a) может быть фиксированным или (b) может быть случайной величиной (с конкретными предположениями о независимости), на самом деле не решает проблемы, выраженные в этом вопросе.

X

$X$

— whuber

@MatthewDrury, просто чтобы уточнить, если моя зависимая переменная - это, скажем, обменный курс, а моя зависимая - это внутренняя процентная ставка, то

— Уильям Карулли

@ MatthewDrury @ MatthewDrury, просто чтобы уточнить, если моя зависимая переменная - это, скажем, обменный курс, а моя зависимость - внутренняя процентная ставка, то E (E (обменный курс | процентная ставка)) = E (обменный курс) = среднее значение по выборке. обменного курса? Я предполагаю, что меня смущает то, что я всегда предполагаю, что ожидания рассчитываются на основе вероятностей, я не вижу причины для обозначения линейной регрессии как условного ожидания, когда ее решение с помощью матричной алгебры кажется сильно отличающимся от общего ожидания.

— Уильям Карулли

Будет много ответов на этот вопрос, но я все еще хочу добавить один, так как вы сделали несколько интересных замечаний. Для простоты я рассматриваю только простую линейную модель.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

Основное уравнение простого линейного регрессионного анализа: Это уравнение означает, что среднее значение является линейным от значений . Можно также заметить, что ожидаемое значение также является линейным по параметрам и , поэтому модель называется линейной. Это фундаментальное уравнение можно переписать так: где - случайная величина со средним нулем:

Е (Y | Икс) знак равно β_{0} + β_{1} Икс,

$\mathbb E(Y\,|\,X) = \beta_0 +\beta_1X,$

Y

$Y$

X

$X$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

Y знак равно β_{0} + β_{1} Икс + ε,

$Y = \beta_0+\beta_1X+\epsilon,$

ϵ

$\epsilon$

E (ϵ) = 0

$\mathbb E(\epsilon) = 0$

Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random

$X$ $Y$

$\{X_1,...,X_n\}$ $X$

$\beta_0$ $\beta_1$ $X$ $X$

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

$\hat\varphi(x)$ $\mathbb E(Y|X = x)$ $\hat \beta_0$ $\hat \beta_1$

\hat{φ} (Икс) знак равно {\hat{β}}_{0} + {\hat{β}}_{1} Икс

$\hat\varphi(x) = \hat\beta_0+\hat\beta_1x$
Оценщик условного среднего наименьшего квадрата имеет выражение, равное описанному вами, если ваша модель рассматривает различные веса как уровни одного фактора. Эти модели также известны как односторонняя ANOVA, которая является частным случаем (не простой) линейной модели.

— Mur1lo
источник

X

$X$

{\hat{β}}_{0}

$\hat\beta_0$

{\hat{β}}_{1}

$\hat\beta_1$

X

$X$

@whuber "Во-первых, модель называется" линейной ", потому что она линейна по параметрам" Я объяснял смысл уравнения, а не значение "линейный" в "линейной модели". «Оценки β̂ 0 и β̂ 1 являются случайными переменными независимо от того, что предполагается относительно X», конечно, но распределение этих случайных переменных меняется в зависимости от того, как вы относитесь к X.

— Mur1lo

@whuber Я полностью согласен с твоими последними замечаниями. Я собираюсь отредактировать свой ответ, чтобы он был понятнее во всех вопросах, которые вы указали. Спасибо за ответ.

— Mur1lo