Интерпретация бета при наличии нескольких категориальных переменных

Я понимаю концепцию, что является средним значением, когда категориальная переменная равна 0 (или является контрольной группой), давая конечную интерпретацию того, что коэффициент регрессии - это разница в среднем двух категорий. Даже при> 2 категориях я бы предположил, что каждая объясняет разницу между средним значением этой категории и ссылкой. $\hat\beta_0$ $\hat\beta$

Но что, если в модель с несколькими переменными будет добавлено больше переменных? Теперь, что означает пересечение, учитывая, что для него нет смысла быть средним для ссылки двух категориальных переменных? Примером может быть, если пол (M (ref) / F) и раса (белый (ref) / черный) были в модели. Является ли средним значением только для белых мужчин? Как можно интерпретировать любые другие возможности? $\hat\beta_0$

В качестве отдельного примечания: служат ли контрастные утверждения способом исследования изменения эффекта? Или просто увидеть эффект ( ) на разных уровнях? $\hat\beta$

— Renee
источник

В качестве терминологического примечания «многомерный» означает несколько переменных ответа , а не несколько переменных предиктора (см. Здесь ). Кроме того, я не слежу за твоим последним вопросом.

— gung - Восстановить Монику

Спасибо за это разъяснение. Получение правильного языка важно для меня! Полагаю, я просто не могу понять, почему операторы контрастности используются вообще, поскольку всегда можно просто установить переменную-ссылку на ту, с которой контрастирует?

— Рене

Я полагаю, вы могли бы просто переоснастить модель с разными эталонными уровнями. Я не уверен, что это удобнее. С помощью контрастов вы также можете указать набор ортогональных контрастов или теоретически подразумеваемый контраст (A против комбинации B & C) для тестирования.

— gung - Восстановить Монику

Ответы:

Вы правы в интерпретации бета-версий, когда существует одна категориальная переменная с $k$ уровнями. Если бы было несколько категориальные переменные (и не было член взаимодействия), отсекаемый отрезок ( ) представляет собой среднее из группы , которая составляет опорный уровень для обеих (всех) категориальных переменных. Используя ваш пример сценария, рассмотрите случай, когда нет взаимодействия, тогда бета-версии: $\hat\beta_0$

$\hat\beta_0$ : среднее белых мужчин
$\hat\beta_{\rm Female}$ : наразницумежду средним самок и самцов среднее
$\hat\beta_{\rm Black}$ :разностьмежду средним значением черных и белых среднее

Мы также можем думать об этом с точки зрения того, как рассчитать различные групповые средства:

\begin{aligned} {\bar{Икс}}_{W час я T е M a L е s} & знак равно {\hat{β}}_{0} \\ {\bar{Икс}}_{W час я T е F е м a L е s} & знак равно {\hat{β}}_{0} + {\hat{β}}_{F е м a L е} \\ {\bar{Икс}}_{В L a с К M a L е s} & знак равно {\hat{β}}_{0} + {\hat{β}}_{В L a с К} \\ {\bar{Икс}}_{В L a с К F е м a L е s} & знак равно {\hat{β}}_{0} + {\hat{β}}_{F е м a L е} + {\hat{β}}_{В L a с К} \end{aligned}

$\begin{align} &\bar x_{\rm White\ Males}& &= \hat\beta_0 \\ &\bar x_{\rm White\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} \\ &\bar x_{\rm Black\ Males}& &= \hat\beta_0 + \hat\beta_{\rm Black} \\ &\bar x_{\rm Black\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} + \hat\beta_{\rm Black} \end{align}$

Если бы у вас был член взаимодействия, он был бы добавлен в конце уравнения для чернокожих женщин. (Интерпретация такого термина взаимодействия довольно запутанна, но я прохожу его здесь: Интерпретация термина взаимодействия .)

Обновление : чтобы прояснить мои моменты, давайте рассмотрим стандартный пример, закодированный в R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

введите описание изображения здесь

Средство yдля этих категориальных переменных:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Мы можем сравнить различия между этими средствами с коэффициентами из подобранной модели:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

В этой ситуации следует признать, что без термина взаимодействия мы предполагаем параллельные линии. Таким образом, Estimateдля (Intercept)означает среднее значение белых мужчин. EstimateДля SexFemaleразницы между средним самок и средними самцами. EstimateДля RaceBlackразницы между средним черных и средним белыми. Опять же, поскольку модель без термина взаимодействия предполагает, что эффекты строго аддитивны (линии строго параллельны), среднее значение черных женщин - это среднее значение белых мужчин плюс разница между средним значением для женщин и средним для мужчин плюс разница между средним у черных и у белых.

— Gung - Восстановить Монику
источник

Спасибо! Очень ясно и полезно. В конце вы упоминаете условия взаимодействия. Если кто-то использует термин взаимодействия, то как это меняет бета-версии (имеется в виду новые бета-версии из модели терминов взаимодействия)? Я знаю, что значение p для термина взаимодействия важно, но имеет ли термин взаимодействия бета осмысленную интерпретацию? Еще раз спасибо за вашу помощь!

— Рене

{\hat{β}}_{F e m a l e}

$\hat\beta_{\rm Female}$

{\bar{x}}_{W h i t e M a l e}

$\bar x_{\rm White\ Male}$

{\bar{x}}_{W h i t e F e m a l e}

$\bar x_{\rm White\ Female}$

Имеет смысл. Спасибо! & это изменено от модели без члена взаимодействия из-за члена взаимодействия, смягчающего основной эффект? Имеется в виду, что если нет взаимодействия, то главный эффект эффекта теоретически будет таким же?

— Рене

Если бы эффект взаимодействия был точно равен 0 (до бесконечных десятичных разрядов) не только в популяции, но и в вашей выборке, бета-версии основного эффекта были бы одинаковыми в модели без / с членом взаимодействия.

— gung - Восстановить Монику

@ hans0l0, это было бы лучше в качестве нового вопроса, чем информации, скрытой здесь в комментариях; Вы можете сослаться на это для контекста. Вкратце, это среднее значение контрольных уровней, когда все непрерывные переменные равны = 0.

— gung - Восстановить Монику

$\hat{\beta}_0$ $\hat\beta$

Если мы немного расширим ваш пример, включив третий уровень в категорию расы (скажем, азиатский ), и выберем белых в качестве эталона, то у вас будет:

$\hat{\beta}_0 = \bar{x}_{White}$
$\hat{\beta}_{Black} = \bar{x}_{Black} - \bar{x}_{White}$
$\hat{\beta}_{Asian} = \bar{x}_{Asian} - \bar{x}_{White}$

$\hat{\beta}$

$\bar{x}_{Asian} = \hat{\beta}_{Asian} + \hat{\beta}_0$

К сожалению, в случае нескольких категориальных переменных правильная интерпретация для перехвата уже не так ясна (см. Примечание в конце). Когда есть n категорий, каждая с несколькими уровнями и одним опорным уровнем (например, « Белый» и « Мужской» в вашем примере), общая форма для перехвата:

{\hat{β}}_{0} знак равно Σ_{я знак равно 1}^{N} {\bar{Икс}}_{р е е е р е N с е, я} - (N - 1) \bar{Икс},

$\hat{\beta}_0 =∑_{i=1}^{n}\bar{x}_{reference,i} -(n-1) \bar{x} ,$

{\bar{Икс}}_{р е е е р е N с е, я} среднее значение эталонного уровня i-й категориальной переменной,

$\bar{x}_{reference,i}\small{\text{ is the mean of the reference level of the i-th categorical variable,}}$

\bar{Икс} среднее значение всего набора данных

$\bar{x}\small{\text{ is the mean of the whole data set}}$

$\hat\beta$

Если мы вернемся к вашему примеру, мы получим:

$\hat{\beta}_0 = \bar{x}_{White} + \bar{x}_{Male} - \bar{x}$
$\hat{\beta}_{Black} = \bar{x}_{Black} - \bar{x}_{White}$
$\hat{\beta}_{Asian} = \bar{x}_{Asian} - \bar{x}_{White}$
$\hat{\beta}_{Female} = \bar{x}_{Female} - \bar{x}_{Male}$

$\hat\beta$

$\hat\beta$ $\hat{\beta}_0, ~\hat{\beta}_{Black}, ~\hat{\beta}_{Asian}$ $\hat{\beta}_{Female}$

Числовой Пример

Позвольте мне позаимствовать у @Gung стандартный числовой пример:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

$\hat\beta$

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Мы можем сравнить эти цифры с результатами регрессии:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

$\hat\beta$ $\hat\beta_0$

{\hat{β}}_{0} знак равно {\bar{Икс}}_{W час я T е} + {\bar{Икс}}_{M a L е} - \bar{Икс}

$\hat{\beta}_0 = \bar{x}_{White} + \bar{x}_{Male} - \bar{x}$

1.5 + 5.333333 - 6.166667
# 0.66666

Обратите внимание на выбор контраста

$\hat\beta$

$\hat\beta^{contr.sum}$ $\hat\beta^{contr.sum}$

$\hat\beta_0^{contr.sum}=\bar{x}$
$\hat\beta_i^{contr.sum}=\bar{x}_i-\bar{x}$

Если мы вернемся к предыдущему примеру, вы получите:

$\hat{\beta}_0^{contr.sum} = \bar{x}$
$\hat{\beta}_{White}^{contr.sum} = \bar{x}_{White} - \bar{x}$
$\hat{\beta}_{Black}^{contr.sum} = \bar{x}_{Black} - \bar{x}$
$\hat{\beta}_{Asian}^{contr.sum} = \bar{x}_{Asian} - \bar{x}$
$\hat{\beta}_{Male}^{contr.sum} = \bar{x}_{Male} - \bar{x}$
$\hat{\beta}_{Female}^{contr.sum} = \bar{x}_{Female} - \bar{x}$

$\hat\beta^{contr.sum}$

— GL
источник