Добавление весов для сильно искаженных наборов данных в логистической регрессии


9

Я использую стандартную версию логистической регрессии для подгонки моих входных переменных к двоичным выходным переменным.

Однако в моей задаче отрицательные выходы (0 с) намного превосходят положительные (1 с). Соотношение составляет 20: 1. Поэтому, когда я обучаю классификатор, кажется, что даже функции, которые настоятельно предполагают возможность положительного результата, все еще имеют очень низкие (крайне отрицательные) значения для их соответствующих параметров. Мне кажется, что это происходит потому, что слишком много отрицательных примеров подтягивают параметры в их направлении.

Поэтому мне интересно, могу ли я добавить веса (скажем, используя 20 вместо 1) для положительных примеров. Это может принести пользу вообще? И если да, то как мне добавить вес (в уравнениях ниже).

Функция стоимости выглядит следующим образом:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

Градиент этой функции стоимости (относительно ):θ

grad=((h(xθ)y)X)

Здесь = количество тестовых случаев, x = матрица признаков, y = выходной вектор, h = сигмовидная функция, θ = параметры, которые мы пытаемся изучить.mxyhθ

Наконец я запускаю градиентный спуск, чтобы найти самый низкий возможный Реализация, кажется, работает правильно.J


Привет, у меня точно такая же проблема, которую вы описали. В моих данных много примеров отрицательных и очень мало положительных, и для меня более важно правильно классифицировать положительные, даже если это означает, что некоторые негативы не учитываются. Похоже, что я также применяю те же методы, что и вы, поскольку я использую ту же функцию стоимости и уравнения градиента. До сих пор я провел несколько тестов и получил следующие результаты: - С 7 параметрами , Размер выборки для обучения: 225000 , Размер для выборки для теста: 75000 Результаты: точность 92% , хотя в положительных случаях только 11% w
Cartz

1
То, что вы делаете, путает функцию потерь с максимальной вероятностью. Невзвешенный mle делает «правильные вещи» с логической точки зрения и отражает, насколько редким является результат для каждой ковариантной спецификации. Вы также можете иметь разделение - это может случиться, что определенный набор ковариат, которые могут точно предсказать ответ в обучающих данных - это приведет к большим отрицательным значениям.
вероятностная

2
Классификация не является хорошей целью и не является способом логистической регрессии. Это понятие классификации вызывает все проблемы, перечисленные здесь. Придерживайтесь предсказанных вероятностей и правильных правил оценки точности
Фрэнк Харрелл

1
@arahant Это только частично правда. Бинарная логистическая регрессия с логит-связью все еще действительна в том смысле, что коэффициенты в ваших ковариатах равны MLE и отражают влияние, которое эти переменные оказывают на шансы класса 1 по сравнению с классом 0. Однако в схеме "случай-контроль" перехват всегда фиксируется так, чтобы отражать соотношение класса 1 к классу 0, и совершенно корректно корректировать термин перехват для назначения классов в соответствии, например, с некоторой функцией издержек неправильной классификации или каким-либо другим процессом, потому что это не меняет коэффициенты по переменным.
Sycorax говорит восстановить Monica

1
Откуда у кого-то возникла идея, что отсечение необходимо / желательно / желательно?
Фрэнк Харрелл

Ответы:


8

Y


Фрэнк, есть ссылка или что-то, чтобы поддержать твою "15 раз ..." деталь? У меня аналогичный дисбаланс в некоторых данных, для которых я использую логистическую регрессию вместо метода ROC, разработанного некоторыми другими исследователями. Недавно я столкнулся с предвзятым отношением к малым выборкам и добавил опцию для уменьшения смещения Фёрта в качестве подходящей опции в моем коде / пакете. Поскольку я пишу это для журнала, было бы полезно иметь кое-что, чтобы сослаться на правила большого пальца руки как это. Извиняюсь, если ссылка - ваша книга RMS, так как она лежит на моих полках, но еще не посмотрела там.
Гэвин Симпсон

Есть документы о смещении малых выборок и значении штрафов Ферт. У меня нет тех под рукой. Относительно 15: 1 см. Biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Фрэнк Харрелл,

Спасибо, Фрэнк, после 15: 1 я больше всего интересовался. У меня есть несколько публикаций о предвзятости малых образцов и методе Фёрта - но если бы у вас было что-то под рукой, я был бы очень признателен, если бы вы сообщили мне, что это было.
Гэвин Симпсон,

3
Просто на тот случай, если кому-то еще придется неверно истолковать вышесказанное, как я поначалу. Соотношение 20: 1 в вопросе - это соотношение отрицательных и положительных наблюдений. 15: 1 в ответе Фрэнка Харрелла - это нечто иное: отношение положительных наблюдений к кандидатским независимым переменным.
Адам Бейли

Экстремальное распределение также создает проблему, увеличивая вероятность квазиполного разделения, особенно если у вас есть категориальные предикторы. Наказание помогает и здесь.
вероятностная

3

В подобных случаях часто лучше использовать гибкую ссылку, а не логистическую ссылку, которая может уловить эту асимметрию. Например , косая норма, GEV , sinh-arcsinh и ссылки в них. Есть много других, но я не могу опубликовать более 2 ссылок.


Можете ли вы дать какие-либо объяснения для других функций ссылки лучше?
DW
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.