У меня есть набор данных с около 5000 часто коррелированных признаков / ковариат и двоичным ответом. Данные были переданы мне, я не собирал их. Я использую Лассо и повышение градиента для построения моделей. Я использую повторную вложенную перекрестную проверку. Я сообщаю о самых больших (абсолютных) 40 коэффициентах Лассо и 40 самых важных особенностях в деревьях с градиентным повышением (в 40 не было ничего особенного; это просто казалось разумным количеством информации). Я также сообщаю о дисперсии этих величин по сгибам и итерациям CV.
Я как бы размышляю над «важными» особенностями, не делая никаких заявлений о p-значениях, причинности или чем-то еще, но вместо этого рассматриваю этот процесс как своего рода - хотя и несовершенный и случайный - понимание какого-то явления.
Предполагая, что я все это сделал правильно (например, правильно выполнил перекрестную проверку, масштабирован для лассо), является ли этот подход разумным? Существуют ли проблемы, например, с проверкой нескольких гипотез, последующим анализом, ложным обнаружением? Или другие проблемы?
Задача
Предсказать вероятность неблагоприятного события
- Прежде всего, точно оценить вероятность
- Более незначительный - как проверка работоспособности, но также, возможно, чтобы выявить некоторые новые предикторы, которые можно было бы изучить далее, проверить коэффициенты и значения, как упомянуто выше.
потребитель
- Исследователи, заинтересованные в прогнозировании этого события, и люди, которым в конечном итоге придется зафиксировать событие, если оно произойдет
Что я хочу, чтобы они из этого вышли
Дайте им возможность прогнозировать событие, если они захотят повторить процесс моделирования, как описано, со своими собственными данными.
Пролить немного света на неожиданных предсказателей. Например, может оказаться, что что-то совершенно неожиданное является лучшим предсказателем. Поэтому разработчики в других местах могут уделять более серьезное внимание упомянутому предиктору.