Я часто строю модель (классификацию или регрессию), где у меня есть некоторые предикторные переменные, которые являются последовательностями, и я пытался найти технические рекомендации для их обобщения наилучшим образом, чтобы включить их в качестве предикторов в модель.
В качестве конкретного примера, скажем, строится модель, позволяющая предсказать, покинет ли клиент компанию в ближайшие 90 дней (в любое время между t и t + 90; таким образом, это бинарный результат). Одним из доступных предикторов является уровень финансового баланса клиентов за периоды от t_0 до t-1. Может быть, это представляет ежемесячные наблюдения за предыдущие 12 месяцев (т.е. 12 измерений).
Я ищу способы построения функций из этой серии. Я использую описания каждой серии клиентов, такие как среднее, высокое, низкое, стандартное отклонение, соответствую регрессии OLS, чтобы получить тренд. Есть ли у них другие методы расчета характеристик? Другие меры изменения или волатильности?
ДОБАВЛЯТЬ:
Как упомянуто в ответе ниже, я также рассмотрел (но забыл добавить здесь) использование динамической деформации времени (DTW), а затем иерархическую кластеризацию на полученной матрице расстояний - создание некоторого количества кластеров и затем использование принадлежности к кластеру в качестве функции. Оценка результатов тестирования, вероятно, должна будет следовать процессу, в котором DTW был выполнен для новых случаев и центроидов кластера - сопоставление нового ряда данных с их ближайшими центроидами ...