Для задачи моделирования оттока я рассматривал:
- Вычислить k кластеров для данных
- Постройте k моделей для каждого кластера индивидуально.
Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных может быть различным для разных «групп».
У меня вопрос, это подходящий метод? Это что-то нарушает или по какой-то причине считается плохим? Если так, то почему?
Если нет, поделитесь ли вы лучшими практиками по этому вопросу? И, во-вторых, лучше или хуже делать предварительную кластеризацию, чем дерево моделей (Как определено в Witten, Frank - дерево классификации / регрессии с моделями на листьях. Интуитивно кажется, что стадия дерева решений - это просто еще одна форма кластеризации, но idk, если у него есть какие-либо преимущества перед «нормальной» кластеризацией.).