Особенности ранжирования в логистической регрессии

Я использовал логистическую регрессию. У меня есть шесть функций, я хочу знать важные функции в этом классификаторе, которые влияют на результат больше, чем другие функции. Я использовал информационное усиление, но, похоже, оно не зависит от используемого классификатора. Есть ли способ ранжировать объекты в соответствии с их важностью на основе конкретного классификатора (например, логистической регрессии)? Любая помощь будет высоко ценится.

— BlueGirl
источник

Логистическая регрессия не является классификатором. Пожалуйста, перепишите свой вопрос, чтобы отразить, что логистическая регрессия является моделью прямой оценки вероятности.

— Фрэнк Харрелл

Помимо вопроса, поднятого Фрэнком Харреллом, вы смотрели на значения ваших оценочных коэффициентов? Это определенно не лучший способ ранжирования функций, но он может дать вам отправную точку.

p

$p$

— usεr11852

Конечно, логистическая регрессия оценивает вероятности, а не явно классифицирует вещи, но кого это волнует? Часто цель состоит в том, чтобы решить, какой класс наиболее вероятен, и нет ничего плохого в том, чтобы называть его классификатором, если вы используете его именно для этого.

— dsaxton

Ответы:

Я думаю, что ответ, который вы ищете, может быть алгоритм Боруты . Это метод-обертка, который напрямую измеряет важность объектов в смысле «все релевантности» и реализуется в пакете R , который создает хорошие графики, например, где важность любого объекта находится на оси Y и сравнивается с ноль изображен синим цветом здесь. Этот пост описывает этот подход, и я бы порекомендовал вам прочитать его как очень четкое вступление.

— babelproofreader
источник

Хорошее предложение (+1). Я думаю, что это немного излишне для этого приложения, но, тем не менее, хорошее дополнение. Я определенно ценю, что это будет хорошо в ситуациях. Знаете ли вы какие-либо сравнительные обзоры, в которых они сравнивались с другими алгоритмами классификации?

p >> n

$p >> n$

— usεr11852

@ usεr11852 Нет, не знаю. Я только что столкнулся с этим сам за последнюю неделю или около того.

— babelproofreader

Хммм ... Хорошо, Борута выглядит очень многообещающе, но я всегда скептически отношусь к новым великолепным алгоритмам, пока не рассматриваю их как часть более глубокого изучения и не вижу случаев, когда они не справляются ( без теоремы о бесплатном обеде ).

— usεr11852

Интересная идея, но не связанная с логистической регрессией.

— Фрэнк Харрелл

«Boruta - это метод выбора функций, а не метод ранжирования функций». См. Часто задаваемые вопросы на домашней странице пакета

— stablefish

Чтобы начать понимать, как ранжировать переменные по важности для моделей регрессии, вы можете начать с линейной регрессии. Популярный подход к ранжированию важности переменной в модели линейной регрессии состоит в разложении на вклады, приписываемые каждой переменной. Но значение переменной не просто в линейной регрессии из-за корреляции между переменными. Обратитесь к документу, описывающему метод PMD (Feldman, 2005) [ 3 ]. Другой популярный подход - усреднение по порядкам (LMG, 1980) [ 2 ]. $R^2$

Не существует единого мнения о том, как ранжировать переменные для логистической регрессии. Хороший обзор этой темы дан в [ 1 ], он описывает адаптацию методов относительной важности линейной регрессии с использованием псевдо- для логистической регрессии. $R^2$

Список популярных подходов к ранжированию важности признаков в моделях логистической регрессии:

Логистическая псевдо-частичная корреляция (с использованием псевдо- ) $R^2$
Адекватность: доля полного логарифмического правдоподобия, которая объясняется каждым предиктором в отдельности
Соответствие: указывает на способность модели различать положительные и отрицательные переменные ответа. Для каждого предиктора строится отдельная модель, а показатель важности - это прогнозируемая вероятность истинных положительных результатов, основанная только на этом предикторе.
Значение информации. Значения информации определяют количество информации о результате, полученном от предиктора. Он основан на анализе каждого предиктора по очереди, без учета других предикторов.

Ссылки:

— Сандип С. Сандху
источник

min_{w, b} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} f_{w, b} (x_{i}))) + λ {‖ w ‖}^{2}

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda {{\left\| {\bf{w}} \right\|}^2}}$

x_{i}

$x_i$

y_{i}

$y_i$

i

$i$

w

$\mathbf{w}$

b

$b$

f_{w, b} (x_{i})

${{f_{w,b}}({x_i})}$

Предполагая, что все ваши нормализованы, например, путем деления на величину , довольно легко увидеть, какие переменные являются более важными: те, которые больше по сравнению с другими или (с отрицательной стороны) ) меньше по сравнению с другими. Они влияют на потери больше всего. $\mathbf{x}$ $\mathbf{x}$

Если вы заинтересованы в поиске переменных, которые действительно важны, и в процессе не возражаете вычеркнуть несколько из них, вы можете упорядочить свою функцию потерь: $\ell_1$

min_{w, b} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} f_{w, b} (x_{i}))) + λ | w |

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda \left| {\bf{w}} \right|}$

Производные или регуляризатор довольно просты, поэтому я не буду упоминать их здесь. Использование этой формы регуляризации и соответствующего приведет к тому, что менее важные элементы в станут равными нулю, а остальные нет. $\lambda$ $\mathbf{w}$

Надеюсь, это поможет. Спросите, есть ли у вас дополнительные вопросы.

— pAt84
источник

LR не является схемой классификации. Любое использование классификации становится шагом после оценки после определения функции полезности / стоимости. Кроме того, ФП не спрашивал о штрафной оценке максимального правдоподобия. Чтобы предоставить доказательства относительной важности переменных в регрессии, очень легко использовать загрузчик для получения пределов достоверности для рангов добавленной прогнозирующей информации, предоставляемой каждым предиктором. Пример приведен в главе 4 « Стратегии регрессионного моделирования», чьи онлайн-заметки и R-код доступны по адресу biostat.mc.vanderbilt.edu/RmS#Materials

— Фрэнк Харрелл,

Профессор Харрелл, пожалуйста. Очевидно, что мы подходим к этому с двух разных сторон. Вы из статистического, а я из машинного обучения. Я уважаю вас, ваши исследования и вашу карьеру, но вы очень свободно можете сформулировать свой собственный ответ и позволить ОП решить, какой из них он считает лучшим ответом на свой вопрос. Я увлечен обучением, поэтому, пожалуйста, научите меня своему подходу, но не заставляйте меня покупать вашу книгу.

— pAt84

Отмечу, что логистическая регрессия была разработана статистиком Д. Р. Коксом в 1958 году, за десятилетия до того, как существовало машинное обучение. Также важно отметить, что сформулированная вами «функция потерь» (которую лучше назвать целевой функцией?) Не имеет никакого отношения к классификации. И что означало для вас, что мои обширные заметки и аудиофайлы, доступные онлайн со всей информацией, на которую я ссылался, стоят чего-то?

— Фрэнк Харрелл

Я проголосовал за оба начальных комментария, поскольку оба поднимают действительные пункты. Более поздние комментарии немного похожи на мелкие ссоры со мной ...

— usεr11852

PS Попытка более ясного способа сказать это, оптимизация прогнозирования / оценки приводит к оптимальным решениям, потому что функция полезности применяется на втором этапе и может быть не связана с предикторами. Оптимизация прогнозирования / оценки не оптимизирует классификацию и наоборот. Оптимизация классификации сводится к использованию странной вспомогательной функции, которая адаптирована к имеющемуся набору данных и может не применяться к новым наборам данных. Люди, которые действительно хотят оптимизировать классификацию (не рекомендуется), могут использовать метод, который вообще обходит оценку / прогноз.

— Фрэнк Харрелл