Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные.

Рассмотрим случай

log(DV) = Intercept + B1*IV + Error

Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть

log(DV) = Intercept + B1*log(IV) + Error

или когда у меня

DV = Intercept + B1*log(IV) + Error

regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

— наверху
источник

У меня такое ощущение, что интерпретация «процентного увеличения» не верна, но мне не хватает понимания, чтобы сказать, почему именно. Я надеюсь, что кто-то может помочь .... Кроме того, я бы порекомендовал моделирование с использованием журналов, если они помогают лучше установить отношения XY, но с сообщением об отдельных примерах этих отношений с использованием исходных переменных. Особенно если иметь дело с аудиторией, которая не слишком технически подкована.

— rolando2

@ rolando2: я не согласен. Если действительная модель требует преобразования, то действительная интерпретация обычно будет опираться на коэффициенты из преобразованной модели. Исследователь по-прежнему обязан надлежащим образом донести значение этих коэффициентов до аудитории. Вот почему, конечно, нам платят такие большие деньги, что зарплата должна быть преобразована в первую очередь.

— Jthetzel

@BigBucks: Ну, посмотри на это так. Предположим, что ваша аудитория просто не может понять, что вы имеете в виду, когда объясняете, что для каждого изменения 1 в журнале (основание 10) X, Y изменится на b. Но предположим, что они могут понять 3 примера, используя значения X 10, 100 и 1000. В этот момент они, вероятно, поймут нелинейный характер отношений. Вы все еще могли бы сообщить об общем, основанном на журнале b, но приведение этих примеров может иметь все значение.

— rolando2

.... Хотя теперь, когда я прочитал ваше замечательное объяснение ниже, возможно, использование этих «шаблонов» могло бы помочь многим из нас разобраться в подобных проблемах в понимании.

— rolando2

Читатели здесь также могут захотеть взглянуть на эти тесно связанные темы: как интерпретировать логарифмически преобразованные коэффициенты в линейной регрессии , и когда и зачем брать логарифм о распределении чисел .

— gung - Восстановить Монику

Ответы:

Чарли дает хорошее, правильное объяснение. На сайте Статистических вычислений в UCLA есть еще несколько примеров: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm и http://www.ats.ucla.edu/stat/mult_pkg/. FAQ / Общие / log_transformed_regression.htm

Чтобы дополнить ответ Чарли, ниже приведены конкретные интерпретации ваших примеров. Как всегда, интерпретации коэффициентов предполагают, что вы можете защитить свою модель, что регрессионная диагностика удовлетворительная и что данные получены из достоверного исследования.

Пример А : нет преобразований

DV = Intercept + B1 * IV + Error

«Увеличение IV на единицу связано с B1увеличением ( ) единицы на DV».

Пример Б : Результат преобразован

log(DV) = Intercept + B1 * IV + Error

«Увеличение показателя на одну единицу связано с ( B1 * 100) процентным увеличением DV».

Пример C : Экспозиция трансформирована

DV = Intercept + B1 * log(IV) + Error

«Увеличение процента на один процент связано с B1 / 100увеличением ( ) единицы на DV».

Пример D : результат трансформирован и экспозиция трансформирована

log(DV) = Intercept + B1 * log(IV) + Error

«Один процент увеличения IV связан с ( B1) процентным увеличением DV».

— jthetzel
источник

Верны ли эти интерпретации независимо от основания логарифма?

— Ayalew A.

Пример B. Журнал с преобразованием результата (DV) = Перехват + B1 * IV + Ошибка «Увеличение IV на одну единицу связано с (B1 * 100) процентным увеличением DV. В этом случае, как вам поступить, если вы хотите получить 30 единиц Снижение DV? Спасибо за ваш ответ

— Antouria

Таким образом, DV ~ B1 * log (IV) является хорошей моделью для нулевой ограниченной непрерывной зависимой переменной?

— Bakaburg

Я могу быть смущен. Если вы лог-трансформируете результат, вы должны повторно возвести в степень коэффициент, чтобы найти мультипликативную разницу. Интерпретация в логарифмическом масштабе работает только как приближение, когда отношение очень близко к 1.

— AdamO

Ссылки битые.

— Ник Кокс

В log-log-модели вы увидите, что Напомним, что или Умножение этой последней формулировки на 100 дает процентное изменение . У нас есть аналогичные результаты для .

β_{1} = \frac{\partial \log (y)}{\partial \log (x)} .

$\begin{equation*}\beta_1 = \frac{\partial \log(y)}{\partial \log(x)}.\end{equation*}$

\frac{\partial \log (y)}{\partial y} = \frac{1}{y}

$\begin{equation*} \frac{\partial \log(y)}{\partial y} = \frac{1}{y} \end{equation*}$

\partial \log (y) = \frac{\partial y}{y} .

$\begin{equation*} \partial \log(y) = \frac{\partial y}{y}. \end{equation*}$

y

$y$

x

$x$

Используя этот факт, мы можем интерпретировать как процентное изменение для 1-процентного изменения . $\beta_1$ $y$ $x$

Следуя той же логике, для модели log-level мы имеем

β_{1} = \frac{\partial y}{\partial \log (x)} = 100 \frac{\partial y}{100 \times \partial \log (x)} .

$\begin{equation*}\beta_1 = \frac{\partial y}{\partial \log(x)} = 100 \frac{\partial y}{100 \times \partial \log(x)}.\end{equation*}$ или - изменение единицы в для изменения на один процент .

β_{1} / 100

$\beta_1/100$

y

$y$

x

$x$

— Чарли
источник

Я никогда этого не понимал. Это должно быть прямо, но я никогда не видел это ... Что именно такое и как вы перейдете отсюда к процентному изменению?

\partial \log (y) = \frac{\partial y}{y} ?

$\begin{equation*} \partial \log(y) = \frac{\partial y}{y}? \end{equation*}$

— B_Miner

Все, что делает эта строка - это взять производную от по и умножить обе стороны на . У нас есть . Эта доля, то есть изменение деленное на . Умноженное на 100, это процентное изменение .

\log (y)

$\log(y)$

y

$y$

\partial y

$\partial y$

\partial y \approx y_{1} - y_{0}

$\partial y \approx y_1 - y_0$

y

$y$

y

$y$

y

$y$

— Чарли

Основная цель линейной регрессии - оценить среднюю разницу результатов, сравнивая смежные уровни регрессора. Есть много видов средств. Мы наиболее знакомы с средним арифметическим.

A M (X) = \frac{(X_{1} + X_{2} + \dots + X_{n})}{n}

$AM(X) = \frac{\left( X_1 + X_2 + \ldots + X_n \right)}{n}$

AM - это то, что оценивается с использованием OLS и нетрансформированных переменных. Среднее геометрическое отличается:

G M (X) = \sqrt[n]{(X_{1} \times X_{2} \times \dots \times X_{n})} = \exp (A M (\log (X))

$GM(X) = \sqrt[\LARGE{n}]{\left( X_1 \times X_2 \times \ldots \times X_n \right)} = \exp(AM(\log(X))$

Практически разница GM - это мультипликативная разница: вы платите X% премии в процентах при получении кредита, уровень гемоглобина снижается на X% после запуска метформина, частота отказов пружин увеличивается на X% как часть ширины. Во всех этих случаях грубая средняя разница имеет меньше смысла.

Логарифмическое преобразование оценивает среднюю геометрическую разницу. При входе в системе преобразования результата и смоделировать его в линейной регрессии , используя следующую формулу спецификацию: log(y) ~ xкоэффициент является средней разностью результатов журнала сравнение соседних единиц . Это практически бесполезно, поэтому мы степень параметр и интерпретируем это значение как среднее геометрическое различие. $\beta_1$ $X$ $e^{\beta_1}$

Например, в исследовании вирусной нагрузки ВИЧ после 10-недельного введения АРТ, мы могли бы оценить среднее геометрическое значение препоста . Это означает, что независимо от того, была ли вирусная нагрузка на исходном уровне, она была в среднем на 60% ниже или имела снижение в 0,6 раза при последующем наблюдении. Если бы исходная нагрузка составляла 10 000, моя модель предсказывала, что она будет равна 4000 в последующем, если бы она была 1000 в исходном состоянии, моя модель предсказывала, что она будет 400 в последующем (меньшая разница в исходном масштабе, но пропорционально так же). $e^{\beta_1} = 0.40$

Это важное отличие от других ответов : условием умножения логарифмического коэффициента на 100 является приближение когда мало. Если коэффициент (по логарифмической шкале), скажем, 0,05, то и интерпретация такова: «увеличение» результата на 5% для «увеличения» на 1 единицу . Однако, если коэффициент равен 0,5 , то , и мы интерпретировать это как «увеличение» 65% в для 1 единицу «увеличение» в . Это НЕ 50% увеличение. $\log(x) \approx 1-x$ $X$ $\exp(0.05) \approx 1.05$ $X$ $\exp(0.5) = 1.65$ $Y$ $X$

Предположим , что мы регистрируем преобразование предсказатель: y ~ log(x, base=2). Здесь меня интересует мультипликативное изменение а не грубая разница. Я сейчас интересует сравнение участников , отличающихся по 2 раза в . Предположим, например, что я заинтересован в измерении инфекции (да / нет) после воздействия переносимого кровью патогена в различных концентрациях с использованием аддитивной модели риска. Биологическая модель может предполагать, что риск увеличивается пропорционально каждому удвоению концентрации. Затем я не свой результат, но предполагаемый коэффициент интерпретируется как разность рисков, сравнивая группы, подвергшиеся воздействию двукратных различий в концентрации инфекционного материала. $x$ $X$ $\beta_1$

Наконец, log(y) ~ log(x)просто применяются оба определения для получения мультипликативной разности, сравнивая группы, мультипликативно отличающиеся по уровням воздействия.

— Adamo
источник