Основная цель линейной регрессии - оценить среднюю разницу результатов, сравнивая смежные уровни регрессора. Есть много видов средств. Мы наиболее знакомы с средним арифметическим.
AM(X)=(X1+X2+…+Xn)n
AM - это то, что оценивается с использованием OLS и нетрансформированных переменных. Среднее геометрическое отличается:
GM(X)=(X1×X2×…×Xn)−−−−−−−−−−−−−−−−−√n=exp(AM(log(X))
Практически разница GM - это мультипликативная разница: вы платите X% премии в процентах при получении кредита, уровень гемоглобина снижается на X% после запуска метформина, частота отказов пружин увеличивается на X% как часть ширины. Во всех этих случаях грубая средняя разница имеет меньше смысла.
Логарифмическое преобразование оценивает среднюю геометрическую разницу. При входе в системе преобразования результата и смоделировать его в линейной регрессии , используя следующую формулу спецификацию: log(y) ~ x
коэффициент является средней разностью результатов журнала сравнение соседних единиц . Это практически бесполезно, поэтому мы степень параметр и интерпретируем это значение как среднее геометрическое различие. X e β 1β1Xeβ1
Например, в исследовании вирусной нагрузки ВИЧ после 10-недельного введения АРТ, мы могли бы оценить среднее геометрическое значение препоста . Это означает, что независимо от того, была ли вирусная нагрузка на исходном уровне, она была в среднем на 60% ниже или имела снижение в 0,6 раза при последующем наблюдении. Если бы исходная нагрузка составляла 10 000, моя модель предсказывала, что она будет равна 4000 в последующем, если бы она была 1000 в исходном состоянии, моя модель предсказывала, что она будет 400 в последующем (меньшая разница в исходном масштабе, но пропорционально так же).eβ1=0.40
Это важное отличие от других ответов : условием умножения логарифмического коэффициента на 100 является приближение когда мало. Если коэффициент (по логарифмической шкале), скажем, 0,05, то и интерпретация такова: «увеличение» результата на 5% для «увеличения» на 1 единицу . Однако, если коэффициент равен 0,5 , то , и мы интерпретировать это как «увеличение» 65% в для 1 единицу «увеличение» в . Это НЕ 50% увеличение.X exp ( 0,05 ) ≈ 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)≈1−xXexp(0.05)≈1.05Xexp(0.5)=1.65YX
Предположим , что мы регистрируем преобразование предсказатель: y ~ log(x, base=2)
. Здесь меня интересует мультипликативное изменение а не грубая разница. Я сейчас интересует сравнение участников , отличающихся по 2 раза в . Предположим, например, что я заинтересован в измерении инфекции (да / нет) после воздействия переносимого кровью патогена в различных концентрациях с использованием аддитивной модели риска. Биологическая модель может предполагать, что риск увеличивается пропорционально каждому удвоению концентрации. Затем я не свой результат, но предполагаемый коэффициент интерпретируется как разность рисков, сравнивая группы, подвергшиеся воздействию двукратных различий в концентрации инфекционного материала.X β 1xXβ1
Наконец, log(y) ~ log(x)
просто применяются оба определения для получения мультипликативной разности, сравнивая группы, мультипликативно отличающиеся по уровням воздействия.