Почему ошибка измерения в зависимой переменной не влияет на результаты?

10

Когда есть ошибка измерения в независимой переменной, я понял, что результаты будут смещены против 0. Когда зависимая переменная измерена с ошибкой, они говорят, что это просто влияет на стандартные ошибки, но это не имеет большого смысла для меня, потому что мы оценка влияния не на исходную переменную а на некоторую другую плюс ошибку. Так как это не влияет на оценки? В этом случае я также могу использовать инструментальные переменные для устранения этой проблемы? $X$ $Y$ $Y$

regression econometrics instrumental-variables

— Кот
источник

16

Если вы хотите оценить простую модель, такую как и вместо истинного вы наблюдаете ее только с некоторой ошибкой которая такова, что коррелирую с и , если вы регресс вашей оценок является

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

{\tilde{Y}}_{i} = Y_{i} + ν_{i}

$\widetilde{Y}_i = Y_i + \nu_i$

X

$X$

ϵ

$\epsilon$

{\tilde{Y}}_{i} = α + β X_{i} + ϵ_{i}

$\widetilde{Y}_i = \alpha + \beta X_i + \epsilon_i$

β

$\beta$

\begin{aligned} \hat{β} & = \frac{C o v ({\tilde{Y}}_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (Y_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α + β X_{i} + ϵ_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α, X_{i})}{V a r (X_{i})} + β \frac{C o v (X_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ϵ_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ν_{i}, X_{i})}{V a r (X_{i})} \\ = β \frac{V a r (X_{i})}{V a r (X_{i})} \\ = β \end{aligned}

$\begin{align} \widehat{\beta} &= \frac{Cov(\widetilde{Y}_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(Y_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha + \beta X_i + \epsilon_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha ,X_i)}{Var(X_i)} + \beta\frac{Cov(X_i,X_i)}{Var(X_i)} + \frac{Cov(\epsilon_i,X_i)}{Var(X_i)} + \frac{Cov(\nu_i,X_i)}{Var(X_i)} \newline &= \beta \frac{Var(X_i)}{Var(X_i)} \newline &= \beta \end{align}$ потому что ковариация между случайная величина и константа ( ) равны нулю, а также ковариации между

и

поскольку мы предполагали, что они некоррелированы.

α

$\alpha$

X_{i}

$X_i$

ϵ_{i}, ν_{i}

$\epsilon_i, \nu_i$

Итак, вы видите, что ваш коэффициент постоянно оценивается. Единственное беспокойство заключается в том, что дает вам дополнительный термин в ошибке, который снижает мощность ваших статистических тестов. В очень плохих случаях такой погрешности измерения в зависимой переменной вы можете не найти значительного эффекта, даже если он действительно существует. Как правило, инструментальные переменные не помогут вам в этом случае, потому что они имеют тенденцию быть даже более неточными, чем OLS, и они могут помочь только с ошибкой измерения в пояснительной переменной. $\widetilde{Y}_i = Y_i + \nu_i = \alpha + \beta X_i + \epsilon_i + \nu_i$

— Энди
источник

У меня есть простой вопрос: что, если νi, то есть ошибка измерения в зависимой переменной, соотносится с независимой переменной, представляющей интерес? Я полагаю, что есть много возможностей, что это может произойти, и уклон социальной желательности может быть примером. Если респонденты опроса имели предвзятость в отношении социальной желательности при ответе на вопросник (и) о зависимой переменной, и если эта желательность была связана с независимой переменной, скажем, возраст или пол (что может быть связано с социальной желательностью), что происходит в условия эндогенности тогда?

— Кан Инкю

3

Регрессионный анализ отвечает на вопрос: «Какое среднее значение Y для тех, кто дал значения X?» или, что то же самое, "Сколько, по прогнозам, Y изменит НА СРЕДНЕМ, если мы изменим Х на одну единицу?" Случайная ошибка измерения не изменяет средние значения переменной или средние значения для подмножеств отдельных лиц, поэтому случайная ошибка в зависимой переменной не будет смещать оценки регрессии.

Допустим, у вас есть данные о росте по выборке особей. Эти высоты очень точно измерены, точно отражая истинный рост каждого человека. В пределах выборки среднее значение для мужчин составляет 175 см, а для женщин - 162 см. Если вы используете регрессию, чтобы рассчитать, насколько пол предсказывает рост, вы оцените модель

$\mathit{HEIGHT = CONSTANT + β * GENDER + RESIDUAL}$

Если для женщин задано значение 0, а для мужчин - 1, то является средним значением для женщины или 162 см. Коэффициент регрессии показывает, насколько высота изменяется НА СРЕДНЕМ, когда вы меняете на одну единицу (от 0 до 1). равно 13, потому что люди, чье значение равно 0 (женщины), имеют средний рост 162 см, в то время как люди, чье значение равно 1 (мужчины), имеют средний рост 175 см; оценивает среднюю разницу между ростом мужчин и женщин, которая составляет 13 см. ( отражает разницу в росте внутри пола.) $\mathit{CONSTANT}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{RESIDUAL}$

Теперь, если вы случайно добавите -1 см или +1 см к истинному росту каждого, что произойдет? Лица, чей фактический рост, скажем, 170 см, теперь будут сообщаться как 169 или 171 см. Тем не менее, среднее значение выборки или любой подвыборки не изменится. Те, чей фактический рост составляет 170 см, будут в среднем иметь 170 см в новом, ошибочном наборе данных, женщины - в среднем 162 см и т. Д. Если вы повторно запустите регрессионную модель, указанную выше, с использованием этого нового набора данных, (ожидаемое) значение не изменится, потому что средняя разница между мужчинами и женщинами все еще составляет 13 см, независимо от погрешности измерения. (Стандартная ошибка будет больше, чем раньше, потому что дисперсия зависимой переменной теперь больше.) $\mathit{β}$ $\mathit{β}$

Если есть ошибка измерения в независимой переменной, а не в зависимой переменной, будет смещенной оценкой. Это легко понять, если рассмотреть пример высоты. Если в переменной есть случайная ошибка измерения , некоторые мужчины будут ошибочно закодированы как женщины и наоборот. Результатом этого является уменьшение видимых гендерных различий в росте, потому что перемещение мужчин в женскую группу увеличит среднее значение для женщин, а перемещение женщин в мужскую группу уменьшит среднее значение для мужчин. При ошибке измерения в независимой переменной будет ниже несмещенного значения 13 см. $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$

Хотя для простоты я использовал категориальную независимую переменную ( ), та же логика применима к непрерывным переменным. Например, если вы используете непрерывную переменную, такую как рост при рождении, для прогнозирования роста взрослого, ожидаемое значение будет одинаковым независимо от количества случайных ошибок в измерениях роста взрослого. $\mathit{GENDER}$ $\mathit{β}$

— user175057
источник