Я не могу точно сказать о характере данных, поскольку они являются собственностью, но предположим, что у нас есть такие данные: каждый месяц некоторые люди подписываются на услугу. Затем в каждом последующем месяце эти люди могут обновить услугу, прекратить обслуживание или получить отказ в обслуживании (например, из-за неуплаты). Для самой ранней когорты в наших данных у нас есть данные за 2 года (24 месяца).
Число людей, присоединяющихся каждый месяц, велико (в диапазоне 100 000), а число людей, выполняющих любую из трех вещей, исчисляется тысячами. Однако мы используем не данные отдельного уровня (которые будут состоять из миллионов строк), а данные, агрегированные по месяцам и группам (какая доля каждой группы выполняет каждую вещь каждый месяц).
Мы моделировали существующие данные с использованием многомерных адаптивных сплайнов регрессии (MARS) и нашли некоторые интересные результаты. Тем не менее, я беспокоюсь об их использовании для экстраполяции или прогнозирования в будущем. Мои опасения связаны с тем, что прогнозы на будущее обязательно находятся за пределами выборочного пространства (с точки зрения времени), и сплайны могут стать нестабильными для экстраполяции.
Это законный метод? Какие проблемы существуют и могут ли они быть решены?