У меня есть 100 000 наблюдений (9 фиктивных переменных индикатора) с 1000 положительных результатов. Логистическая регрессия должна работать нормально в этом случае, но вероятность отсечения озадачивает меня.
В обычной литературе мы выбираем 50% -ное сокращение, чтобы предсказать 1 и 0. Я не могу этого сделать, так как моя модель дает максимальное значение ~ 1%. Таким образом, порог может быть на уровне 0,007 или где-то около него.
Я понимаю ROC
кривые и то, как область под кривой может помочь мне выбрать между двумя моделями LR для одного и того же набора данных. Однако ROC не помогает мне выбрать оптимальную вероятность отсечения, которая может быть использована для тестирования модели на данных вне выборки.
Должен ли я просто использовать значение отсечения, которое минимизирует misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Добавлено -> При таком низком уровне событий на мои показатели неправильной классификации влияет огромное количество ложных срабатываний. Несмотря на то, что показатель по всем кажется хорошим, так как общий размер вселенной также велик, но моя модель не должна иметь так много ложных срабатываний (как модель возврата инвестиций). 5/10 коэффициентов значимы.