Я хотел бы изучить редкие события в конечной популяции. Поскольку я не уверен, какая стратегия лучше всего подходит, я был бы признателен за советы и рекомендации, связанные с этим вопросом, хотя я хорошо понимаю, что он в значительной степени освещен. Я просто не знаю, с чего начать.
Моя проблема - политология, и у меня конечная численность, насчитывающая 515 843 записей. Они связаны с двоичной зависимой переменной с 513,334 "0" с и 2,509 "1" с. Я могу обозначить свои «1» как редкие события, так как они составляют только 0,49% населения.
У меня есть набор из 10 независимых переменных, с которыми я хотел бы построить модель, чтобы объяснить наличие «1». Как и многие из нас, я читал статью Кинга и Цзэна 2001 года об исправлении редких событий. Их подход состоял в том, чтобы использовать схему управления регистром, чтобы уменьшить число «0», а затем применить коррекцию к перехвату.
Однако в этом посте говорится, что аргумент Кинга и Цзэна не был необходим, если я уже собрал свои данные по всему населению, что является моим случаем. Поэтому я должен использовать классическую модель логита. К сожалению для меня, хотя я получаю хорошие значимые коэффициенты, моя модель совершенно бесполезна с точки зрения прогнозирования (не в состоянии предсказать 99,48% моих "1").
Прочитав статью King & Zeng, я захотел попробовать дизайн с контролем случая и выбрал только 10% из «0» со всеми «1». При почти одинаковых коэффициентах модель могла прогнозировать почти одну треть «1» применительно к полной совокупности. Конечно, есть много ложных срабатываний.
Таким образом, у меня есть три вопроса, которые я хотел бы задать вам:
1) Если подход King & Zeng является предвзятым, когда вы полностью осведомлены о населении, почему они используют ситуацию, когда они знают население в своей статье, чтобы доказать свою точку зрения?
2) Если у меня есть хорошие и значимые коэффициенты в логит-регрессии, но очень плохая предсказательная сила, означает ли это, что изменение, объясняемое этими переменными, не имеет смысла?
3) Как лучше всего справляться с редкими событиями? Я читал о модели relogit Кинга, подходе Фёрта, точном logit и т. Д. Я должен признаться, что я потерян среди всех этих решений.