У меня есть набор данных , в котором частота событий очень низка (40000 отказа от ). Я применяю логистическую регрессию по этому вопросу. У меня была дискуссия с кем-то, где выяснилось, что логистическая регрессия не даст хорошей матрицы путаницы для данных с такой низкой частотой событий. Но из-за бизнес-проблемы и способа ее определения я не могу увеличить число событий с 40 000 до большего числа, хотя я согласен с тем, что могу удалить какое-то незапланированное население.
Пожалуйста, скажите мне свое мнение по этому вопросу, а именно:
- Зависит ли точность логистической регрессии от частоты событий или есть минимальная частота событий, которая рекомендуется?
- Есть ли какая-то специальная техника для данных с низкой частотой событий?
- Будет ли удаление моей популяции, которая не принадлежит никому, хорошо для точности моей модели?
Я новичок в статистическом моделировании, поэтому простите мое невежество и, пожалуйста, решайте любые связанные с этим вопросы, о которых я мог подумать.
Благодарность,