Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов.
Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов я использую, классификации никогда не становятся лучше, чем специфичность 100% и чувствительность 0%. Как бы неудовлетворительно это ни было на самом деле может быть наилучшим результатом, учитывая набор переменных-предикторов-кандидатов (от которых я не могу отклониться).
Но я не мог не думать о том, что могу добиться большего успеха, поэтому я заметил, что категории зависимой переменной были довольно неравномерно сбалансированы, почти 4: 1. Может ли более сбалансированная подвыборка улучшить классификацию?