Регрессия: Преобразование переменных

При преобразовании переменных, вы должны использовать все те же преобразования? Например, могу ли я выбрать по-разному преобразованные переменные, как в:

Пусть - возраст, стаж работы, стаж проживания и доход. $x_1,x_2,x_3$

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Или вы должны соответствовать своим преобразованиям и использовать все то же самое? Как в:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3)

Насколько я понимаю, цель трансформации - решить проблему нормальности. Глядя на гистограммы каждой переменной, мы видим, что они представляют очень разные распределения, что привело бы меня к мысли, что требуемые преобразования различны для разных переменных.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7])

альтернативный текст

И наконец, насколько правильно преобразовывать переменные, используя где имеет значений? Должно ли это преобразование быть согласованным по всем переменным или оно используется adhoc даже для тех переменных, которые не содержат ? $\log(x_n + 1)$ $x_n$ $0$ $0$

## R Code 
plot(df[1:7])

альтернативный текст

r regression logistic data-transformation

— Брэндон Бертельсен
источник

Один преобразует зависимую переменную для достижения приблизительной симметрии и гомоскедастичность из остатков . Преобразования независимых переменных имеют другую цель: в конце концов, в этой регрессии все независимые значения принимаются как фиксированные, а не случайные, поэтому «нормальность» неприменима. Основной целью этих преобразований является достижение линейных отношений с зависимой переменной (или, на самом деле, с ее логитом). (Эта цель перевешивает вспомогательные, такие как сокращение избыточного кредитного плечаили достижения простой интерпретации коэффициентов.) Эти отношения являются свойством данных и явлений, которые их породили, поэтому вам нужна гибкость, чтобы выбирать соответствующие выражения каждой переменной отдельно от других. В частности, не только не является проблемой использование журнала, рута и ответной реакции, это довольно распространенное явление. Принцип состоит в том, что (как правило) нет ничего особенного в том, как данные первоначально представлены, поэтому вы должны позволить данным предложить повторные выражения, которые приведут к эффективным, точным, полезным и (если возможно) теоретически обоснованным моделям.

Гистограммы, которые отражают одномерные распределения, часто намекают на первоначальное преобразование, но не являются диспозитивными. Сопровождайте их матрицами рассеяния, чтобы вы могли изучить взаимосвязи между всеми переменными.

$\log(x + c)$ $c$ $x$ $\log(x)$ $x$ $z_x$ $x$ $x = 0$ и 0 в противном случае. Эти условия вносят сумму

β \log (x) + β_{0} z_{x}

$\beta \log(x) + \beta_0 z_x$

$x \gt 0$ $z_x = 0$ $\beta \log(x)$ $x = 0$ $\log(x)$ $z_x = 1$ $\beta_0$ $\beta_0$ $x = 0$ $\beta$ $\log(x)$

— Whuber
источник

Очень полезное описание, спасибо за направление и детализацию моего подвопроса.

— Брэндон Бертельсен

pareonline.net/getvn.asp?v=15&n=12 Осборн (2002) рекомендует привязывать минимальное значение в распределении точно к 1,0. pareonline.net/getvn.asp?v=8&n=6

— Крис,

1

$1$

1

$1$

В одном из моих наборов данных, над которым я работаю, я заметил, что если я сместил переменную зависимого ответа на якорь в 1 и использовал преобразование блока Кокса, чтобы устранить перекос, результирующее преобразование было ослаблено, что привело к доверию к вашей критике. ;)

— Крис

β_{0}

$\beta_0$

z_{x}

$z_x$