При преобразовании переменных, вы должны использовать все те же преобразования? Например, могу ли я выбрать по-разному преобразованные переменные, как в:
Пусть - возраст, стаж работы, стаж проживания и доход.
Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)
Или вы должны соответствовать своим преобразованиям и использовать все то же самое? Как в:
Y = B1*log(x1) + B2*log(x2) + B3*log(x3)
Насколько я понимаю, цель трансформации - решить проблему нормальности. Глядя на гистограммы каждой переменной, мы видим, что они представляют очень разные распределения, что привело бы меня к мысли, что требуемые преобразования различны для разных переменных.
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav",
use.value.labels=T, to.data.frame=T)
hist(df[1:7])
И наконец, насколько правильно преобразовывать переменные, используя где имеет значений? Должно ли это преобразование быть согласованным по всем переменным или оно используется adhoc даже для тех переменных, которые не содержат ?x n 0 0
## R Code
plot(df[1:7])