Как совместить результаты логистической регрессии и случайного леса?


12

Я новичок в машинном обучении. Я применил логистическую регрессию и случайный лес к одному и тому же набору данных. Таким образом, я получаю значение переменной (абсолютный коэффициент для логистической регрессии и значение переменной для случайного леса). Я думаю объединить два, чтобы получить окончательное значение переменной. Кто-нибудь может поделиться своим опытом? Я проверил сумку, бустинг, моделирование ансамблей, но они не то, что мне нужно. Они больше объединяют информацию для одной и той же модели через реплики. То, что я ищу, это объединить результаты нескольких моделей.


5
Ансамблевое моделирование также может комбинировать модели. Посмотрите на голосование большинства, например. Смотрите также, укладка.
погладить

4
На самом деле, использование размера коэффициентов не является хорошим способом определения «важности переменной» в логистической регрессии. Даже если вы посмотрите на стандартизированные коэффициенты, это не очень хороший метод. Зачем? Помните, что коэффициенты - это просто оценки, и с ними связана ошибка. Выбор коэффициентов по размеру означает, что вы выбираете те, для которых вы переоценили размер коэффициента, и отбрасываете те, для которых вы недооценили размер коэффициента.
user765195

Ответы:


12

Вероятно, это зависит от того, для чего вы хотите использовать переменные значения. Будет ли он использоваться в качестве критерия выбора признаков для третьей модели классификации? В этом случае вы можете попытаться вычислить средневзвешенное значение переменных значений (возможно, после нормализации каждого отдельного вектора важности переменной для длины единицы) для различных значений и веса усреднения, а затем получить значение, которое дает лучший перекрестно проверенный результат для окончательного значения. модель.

Что касается объединения результатов модели логистической регрессии и модели случайного леса (без учета переменных значений), следующий пост в блоге очень информативен и демонстрирует, что однократное усреднение результатов представляет собой простой, но очень эффективный метод ансамбля для моделей регрессии.


1
Спасибо за ваш ответ. Блог, который вы упомянули, действительно интересное исследование. Я думаю, у меня есть идея. Единственная забота - его формула кросс-энтропии. Похоже, с тем, что я нашел в Интернете. Его использование: cross.entropy <- функция (цель, прогнозируемая) {прогнозируемая = pmax (1e-10, pmin (1-1e-10, прогнозируемая)) - сумма (target * log (прогнозируемая) + (1 - target) * log (1 - прогнозируемый))}
user1946504

2
и когда я применил ту же идею к своему собственному набору данных, я использовал ошибку ошибочной классификации в качестве критерия, график ничего подобного не дал. Случайный лес получается намного лучше, чем логистическая регрессия. Ошибка ошибочной классификации RF составляет 0,2, для LR - 0,4. В то же время AUC для RF составляет 0,8, для LR - 0,73.
user1946504

5

(Комментируя вышеупомянутый ответ и обратную связь)

Спасибо, что читаете блог!

Функция кросс-энтропийной ошибки имеет небольшой обман, обрезая предсказанные значения до [1e-10, 1-1e-10] как дешевый и простой способ предотвратить ошибки в функциях журнала. В противном случае это стандартная формула.

Для набора данных очень возможно иметь наборы данных, в которых случайный лес намного превосходит журнал. рег. и журнал. рег. ничего не добавляет в ансамбль. Конечно, убедитесь, что вы используете несдерживаемые данные - случайный лес почти всегда будет иметь превосходные результаты на тренировочных данных из-за наличия гораздо более эффективных параметров.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.