У меня есть большие данные опроса, двоичная переменная результата и много объясняющих переменных, включая двоичные и непрерывные. Я строю наборы моделей (экспериментирую как с GLM, так и со смешанным GLM) и использую теоретико-информационные подходы для выбора топ-модели. Я тщательно изучил объяснения (как непрерывные, так и категориальные) на предмет корреляций, и я использую только те из них в той же модели, у которых коэффициент Пирсона или Фикорра меньше 0,3. Я хотел бы дать всем моим непрерывным переменным реальную возможность конкурировать за лучшую модель. По моему опыту, преобразование тех, кто нуждается в этом, на основе перекоса, улучшает модель, в которой они участвуют (более низкая AIC).
Мой первый вопрос: это улучшение, потому что преобразование улучшает линейность с логитом? Или исправление перекоса улучшает баланс объясняющих переменных, делая данные более симметричными? Хотелось бы мне понять математические причины этого, но сейчас, если бы кто-то мог объяснить это в простых терминах, это было бы здорово. Если у вас есть какие-либо ссылки, которые я мог бы использовать, я был бы очень признателен.
Многие интернет-сайты говорят, что, поскольку нормальность не является допущением в бинарной логистической регрессии, не преобразовывайте переменные. Но я чувствую, что, не трансформируя свои переменные, я оставляю некоторые в невыгодном положении по сравнению с другими, и это может повлиять на то, что является топ-моделью, и изменить вывод (ну, обычно это не так, но в некоторых наборах данных это происходит). Некоторые из моих переменных работают лучше, когда лог преобразован, некоторые - в квадрате (другое направление перекоса), а некоторые нет.
Может ли кто-нибудь дать мне указание, с чем следует быть осторожным при преобразовании объясняющих переменных для логистической регрессии, и если нет, почему бы и нет?