Я, вероятно, имею дело с проблемой, которая, вероятно, была решена сто раз прежде, но я не уверен, где найти ответ.
При использовании логистической регрессии, учитывая многие функции и пытаясь предсказать двоичное категориальное значение y , я заинтересован в выборе подмножества признаков, которые хорошо предсказывают y .
Есть ли процедура, похожая на лассо, которую можно использовать? (Я видел только лассо, используемое для линейной регрессии.)
Является ли рассмотрение коэффициентов подобранной модели показателем важности различных функций?
Правка - Разъяснения после просмотра некоторых ответов:
Когда я имею в виду величину установленных коэффициентов, я имею в виду те, которые соответствуют нормализованным (среднее 0 и дисперсия 1) характеристикам. В противном случае, как указывает @probabilityislogic, 1000x будет казаться менее важным, чем x.
Я не заинтересован в том, чтобы просто найти лучшее k-подмножество (как предлагал @Davide), а скорее взвесил важность различных функций относительно друг друга. Например, одна функция может быть «возраст», а другая функция «возраст> 30». Их возрастающее значение может быть небольшим, но оба могут быть важными.