Регрессионный анализ отвечает на вопрос: «Какое среднее значение Y для тех, кто дал значения X?» или, что то же самое, "Сколько, по прогнозам, Y изменит НА СРЕДНЕМ, если мы изменим Х на одну единицу?" Случайная ошибка измерения не изменяет средние значения переменной или средние значения для подмножеств отдельных лиц, поэтому случайная ошибка в зависимой переменной не будет смещать оценки регрессии.
Допустим, у вас есть данные о росте по выборке особей. Эти высоты очень точно измерены, точно отражая истинный рост каждого человека. В пределах выборки среднее значение для мужчин составляет 175 см, а для женщин - 162 см. Если вы используете регрессию, чтобы рассчитать, насколько пол предсказывает рост, вы оцените модель
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
Если для женщин задано значение 0, а для мужчин - 1, то является средним значением для женщины или 162 см. Коэффициент регрессии показывает, насколько высота изменяется НА СРЕДНЕМ, когда вы меняете на одну единицу (от 0 до 1). равно 13, потому что люди, чье значение равно 0 (женщины), имеют средний рост 162 см, в то время как люди, чье значение равно 1 (мужчины), имеют средний рост 175 см; оценивает среднюю разницу между ростом мужчин и женщин, которая составляет 13 см. ( отражает разницу в росте внутри пола.)βCONSTANTβ& beta ; G Е Н Д Е Р G E N D E R & beta ; Р Е С Я Д У лGENDERβGENDERGENDERβRESIDUAL
Теперь, если вы случайно добавите -1 см или +1 см к истинному росту каждого, что произойдет? Лица, чей фактический рост, скажем, 170 см, теперь будут сообщаться как 169 или 171 см. Тем не менее, среднее значение выборки или любой подвыборки не изменится. Те, чей фактический рост составляет 170 см, будут в среднем иметь 170 см в новом, ошибочном наборе данных, женщины - в среднем 162 см и т. Д. Если вы повторно запустите регрессионную модель, указанную выше, с использованием этого нового набора данных, (ожидаемое) значение не изменится, потому что средняя разница между мужчинами и женщинами все еще составляет 13 см, независимо от погрешности измерения. (Стандартная ошибка будет больше, чем раньше, потому что дисперсия зависимой переменной теперь больше.)βββ
Если есть ошибка измерения в независимой переменной, а не в зависимой переменной, будет смещенной оценкой. Это легко понять, если рассмотреть пример высоты. Если в переменной есть случайная ошибка измерения , некоторые мужчины будут ошибочно закодированы как женщины и наоборот. Результатом этого является уменьшение видимых гендерных различий в росте, потому что перемещение мужчин в женскую группу увеличит среднее значение для женщин, а перемещение женщин в мужскую группу уменьшит среднее значение для мужчин. При ошибке измерения в независимой переменной будет ниже несмещенного значения 13 см. G E N D E R ββGENDERβ
Хотя для простоты я использовал категориальную независимую переменную ( ), та же логика применима к непрерывным переменным. Например, если вы используете непрерывную переменную, такую как рост при рождении, для прогнозирования роста взрослого, ожидаемое значение будет одинаковым независимо от количества случайных ошибок в измерениях роста взрослого.βGENDERβ