У меня есть набор данных с 330 выборками и 27 функциями для каждой выборки, с проблемой двоичного класса для логистической регрессии.
Согласно «правилу если десять» мне нужно по крайней мере 10 событий для каждой функции, которая будет включена. Тем не менее, у меня есть несбалансированный набор данных, с 20% положительного класса и 80% отрицательного класса.
Это дает мне только 70 событий, что позволяет включить в модель логистики только 7/8 функций.
Я хотел бы оценить все функции в качестве предикторов, я не хочу вручную выбирать какие-либо функции.
Так что бы вы предложили? Должен ли я сделать все возможные 7 комбинаций функций? Должен ли я оценивать каждую функцию отдельно с моделью ассоциации, а затем выбирать только лучшие из них для окончательной модели?
Мне также интересно узнать об обработке категориальных и непрерывных функций, могу ли я их смешать? Если у меня есть категориальный [0-1] и непрерывный [0-100], я должен нормализовать?
В настоящее время я работаю с Python.
Большое спасибо за вашу помощь!