Я пытаюсь предсказать успех или неудачу студентов, основываясь на некоторых особенностях модели логистической регрессии. Чтобы улучшить производительность модели, я уже думал о том, чтобы разделить учащихся на разные группы на основе очевидных различий и создать отдельные модели для каждой группы. Но я думаю, что может быть сложно определить эти группы по экзамену, поэтому я подумал о том, чтобы разделить учащихся на группы по их особенностям. Это обычная практика в построении таких моделей? Не могли бы вы предложить разбить его на явные группы (например, студенты первого семестра или возвращающиеся студенты), а затем выполнить кластеризацию по этим группам или кластеризацию с самого начала?
Чтобы попытаться уточнить:Я имею в виду, что я рассматриваю возможность использования алгоритма кластеризации, чтобы разбить мой тренировочный набор для логистической регрессии на группы. Затем я бы сделал отдельные логистические регрессии для каждой из этих групп. Затем, используя логистическую регрессию для прогнозирования результата для студента, я выбирал, какую модель использовать в зависимости от того, в какую группу он лучше всего подходит.
Возможно, я мог бы сделать то же самое, включив идентификатор группы, например, 1, если ученик возвращается, и 0, если нет.
Теперь вы заставили меня задуматься о том, может ли быть выгодным кластеризовать набор обучающих данных и использовать их метку кластера в качестве функции логистической регрессии, а не создавать отдельные модели логистической регрессии для каждой популяции.
Если полезно включить идентификатор группы для тех, кто возвращает учеников против новых учеников, возможно, было бы также полезно расширить список групп? Кластеризация кажется естественным способом сделать это.
Надеюсь, это понятно ...