Кластеризация как средство разделения данных для логистической регрессии


11

Я пытаюсь предсказать успех или неудачу студентов, основываясь на некоторых особенностях модели логистической регрессии. Чтобы улучшить производительность модели, я уже думал о том, чтобы разделить учащихся на разные группы на основе очевидных различий и создать отдельные модели для каждой группы. Но я думаю, что может быть сложно определить эти группы по экзамену, поэтому я подумал о том, чтобы разделить учащихся на группы по их особенностям. Это обычная практика в построении таких моделей? Не могли бы вы предложить разбить его на явные группы (например, студенты первого семестра или возвращающиеся студенты), а затем выполнить кластеризацию по этим группам или кластеризацию с самого начала?

Чтобы попытаться уточнить:

Я имею в виду, что я рассматриваю возможность использования алгоритма кластеризации, чтобы разбить мой тренировочный набор для логистической регрессии на группы. Затем я бы сделал отдельные логистические регрессии для каждой из этих групп. Затем, используя логистическую регрессию для прогнозирования результата для студента, я выбирал, какую модель использовать в зависимости от того, в какую группу он лучше всего подходит.

Возможно, я мог бы сделать то же самое, включив идентификатор группы, например, 1, если ученик возвращается, и 0, если нет.

Теперь вы заставили меня задуматься о том, может ли быть выгодным кластеризовать набор обучающих данных и использовать их метку кластера в качестве функции логистической регрессии, а не создавать отдельные модели логистической регрессии для каждой популяции.

Если полезно включить идентификатор группы для тех, кто возвращает учеников против новых учеников, возможно, было бы также полезно расширить список групп? Кластеризация кажется естественным способом сделать это.

Надеюсь, это понятно ...


Я думаю, что не понимаю, как «кластеризация» и модель логистической регрессии будут взаимодействовать или влиять друг на друга. Не могли бы вы объяснить разницу между «кластеризацией» в этом контексте и включением идентификатора группы в качестве объясняющей переменной в регрессии?
whuber

Ответы:


4

Я считаю, что если у вас есть существенная разница в зависимой переменной между вашими кластерами, тогда подход кластеризации в первую очередь будет ОПРЕДЕЛЕННО полезным. Независимо от выбранного вами алгоритма обучения.

По моему мнению, использование алгоритма обучения на всей базе может скрыть значимые различия на более низком уровне агрегации.

Любой, кто слышал о парадоксе Симпсона, это трудный случай более глубокой проблемы, когда у вас есть разные корреляции в разных группах, которые покрыты большим шумом выборки и / или более слабыми корреляциями большей группы.


Вы можете быть правы, но я не следую вашему аргументу. Вы выступаете за то, чтобы OP запускал отдельные LR на найденных кластерах, добавлял индекс кластера в дополнение к ковариатам или вместо ковариат? Конечно, верно, что ковариаты могут быть смешаны с пропущенными переменными в наблюдательных исследованиях, но говорите ли вы, что CA может генерировать информацию, которой нет в переменных, на которых он работает? Что касается парадокса Симпсона, он обсуждается здесь, если вам интересно.
gung - Восстановить Монику

Я полагаю, что в результате неконтролируемого анализа выявляются однородные группы с произвольным набором IV (независимых переменных). После этого вы можете сами решить, будете ли вы использовать тот же набор переменных, новый набор или комбинированный набор для следующего этапа моделирования с помощью LR. Цель состоит в том, чтобы создать и настроить 1 LR на кластер (учитывая, что кластеры имеют существенно разные значения DV или частоты).
Clancy

На самом деле я сам выполнил это в контексте модели перекрестных продаж продуктов по страхованию жизни и обнаружил улучшенный прогноз по двум кластерам, который был разбавлен третьим кластером.
Clancy

Интересно, возможно, модели понадобился сплайн-термин. Не могли бы вы включить имитацию некоторых данных, базового соответствия, CA и окончательного (улучшенного) соответствия с индикатором кластера? Мне было бы интересно увидеть это и немного поиграть с этим, чтобы понять, что происходит.
gung - Восстановить Монику

Привет Гунг, я бы с удовольствием, но не могу найти время. Я вложил значительные средства в семью, работу и совершенствование своих навыков моделирования. Я только начинаю работать с моделированием MARS и не уверен, что это удовлетворит тот же желаемый результат, что и описанный ансамбль кластера + LR.
Clancy

8

Предложенный вами общий подход - использование скрытых разделов для назначения разных точек данных различным базовым классификаторам - является хорошо изученным подходом к классификации.

Причина, по которой эти методы не используются широко, вероятно, потому что они относительно сложны и имеют более длительное время выполнения, чем логистическая регрессия или SVM. Во многих случаях кажется, что они могут привести к лучшей производительности классификации.

Вот несколько ссылок:

  • Шахбаба Б. и Нил Р. "Нелинейные модели с использованием технологических смесей Дирихле"

  • Чжу Дж., Чен Н. и Син Е.П. «Бесконечный латентный SVM для классификации и многозадачного обучения»

  • Расмуссен, CE и Ghahramani, Z. "Бесконечные смеси экспертов Гаусса процесса"

  • Мидс, Э. и Осиндеро, С. "Альтернативная бесконечная смесь экспертов по гауссовскому процессу"


1

Я хочу с самого начала признать, что я относительно мало знаю о кластеризации. Однако я не вижу смысла описываемой вами процедуры. Например, если вы думаете, что первый семестр и возвращающиеся студенты могут отличаться, почему бы не включить ковариату, которая индексирует это? Точно так же, если вы считаете, что важна другая особенность учащихся, вы можете включить ее. Если вы обеспокоены тем, что отношения между вашим основным предиктором интереса и вероятностью успеха могут отличаться, вы также можете включить взаимодействие между этим предиктором и первым слагаемым в сравнении с возвращением и т. Д. Логистическая регрессия хорошо подготовлена ​​для решения этих вопросов посредством включения таких условия в модели.

С другой стороны, пока вы только кластеризуете эти функции и делаете это сначала (не глядя на ответ), я не вижу никаких проблем. Я подозреваю, что этот подход был бы неэффективным, так как каждая модель имеет более низкую мощность, потому что она подходит только для подмножества данных, но я не думаю, что это сместит параметры или сделает тесты недействительными. Итак, я полагаю, вы можете попробовать это, если вы действительно хотите.

Обновить:

Я предполагаю, что было бы лучше (то есть, наиболее эффективно) соответствовать одной модели со всеми данными. Вы можете включить некоторые дополнительные ковариаты (например, возвращение или не возвращение) вне вашего основного интереса и индикатор группировки, который вы обнаружили, предварительно запустив кластерный анализ. Однако, если ковариаты, вошедшие в кластерный анализ, также становятся доступными для модели логистической регрессии, я не уверен, смогу ли я увидеть, что получится за счет простого включения всех ковариат в модель LR безиндикатор кластера. В этом может быть преимущество, с которым я не знаком, так как я не эксперт в кластерном анализе, но я не знаю, что это будет. Мне кажется, что CA не будет генерировать дополнительную информацию, которой еще не было в ковариатах, и, таким образом, не добавит ничего к модели LR. Вы можете попробовать это; может я ошибаюсь Но я думаю, что вы просто сожгли бы несколько дополнительных степеней свободы.

Другой подход состоял бы в том, чтобы ввести кластерный индикатор в модель LR вместо ковариат, на которых он основан. Я сомневаюсь, что это было бы полезно. ЦС не будет идеальным, как и любой другой анализ, и поэтому переход от исходных ковариат к производному кластерному индикатору может повлечь за собой некоторую потерю информации . (Опять же, я не знаю этого, но я сильно подозреваю, что это правда.) Опять же, вы можете попробовать это обоими способами и сравнить как академическое упражнение, хотя просто пробуете много вещей и выбираете результат, который выглядит лучше всего, нахмурился если вы хотите серьезно относиться к своим результатам.

Я не хочу просто придираться к кластерному анализу. В общем, их может быть много, и здесь они могут быть полезны. Тем не менее, насколько я понимаю вашу ситуацию, я думаю, что просто построить модель LR с ковариатами, которые, по вашему мнению, могут иметь значение, - это путь.


1

Если вы не привязаны к логистической регрессии, я бы предложил вам использовать классификатор случайных лесов, поскольку он имеет своего рода встроенную кластеризацию. Идея состоит в том, чтобы использовать матрицу близости к кластеру. Матрица близости - это матрица N_Obs by N_Obs для доли деревьев вне мешка, где наблюдения находятся в одном и том же терминальном узле. Затем вы можете агрегировать это в уровень объекта по матрице уровня объекта, где элементы представляют собой среднее значение доли в матрице близости. Затем вы объедините все уровни вместе, когда они достигнут порогового значения, и посмотрите, улучшит ли это ваш прогноз. Вероятно, лучше всего использовать пошаговый итеративный подход, чтобы найти оптимальную кластеризацию, но вы можете выбрать порог другими способами. Когда эта кластеризация завершена, вы можете заменить функцию метками кластера или добавить метки кластера в качестве новой функции. Я полагаю, что в этот момент вы можете вернуться к логистической регрессии, если вы действительно этого хотите.


0

При создании многосегментных моделей я думаю, что лучший подход - это создавать сегменты, которые говорят о реальных различиях в базовых дистрибутивах. Первоклассники против вернувшихся студентов - отличный пример, поскольку распределение предикторов, вероятно, будет сильно отличаться для этих двух групп населения. Что еще более важно, эти различия имеют интуитивное объяснение.


Я понимаю ценность интуитивного объяснения - оно помогает вам интерпретировать вашу модель. Но нет ли причины полагать, что если вы объедините людей в группы на основе их сходства с точки зрения имеющихся у вас возможностей, вы получите аналогичное преимущество, хотя и не с той же интерпретируемостью? Я предполагаю, что идея использования кластеризации заключается в том, что когда дело доходит до выявления групп, которые не соответствуют аккуратно категориям, которые мы используем в повседневной жизни, машины лучше, чем люди ...
Дейв

И, кроме того, если вы тренируете регрессионную модель для группы одинаковых учащихся, эта модель будет более точной в своих прогнозах успеха этих учащихся, чем модель, которая была подготовлена ​​с использованием более широкого набора учащихся.
Дэйв
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.