Техника извлечения признаков - суммирование последовательности данных

11

Я часто строю модель (классификацию или регрессию), где у меня есть некоторые предикторные переменные, которые являются последовательностями, и я пытался найти технические рекомендации для их обобщения наилучшим образом, чтобы включить их в качестве предикторов в модель.

В качестве конкретного примера, скажем, строится модель, позволяющая предсказать, покинет ли клиент компанию в ближайшие 90 дней (в любое время между t и t + 90; таким образом, это бинарный результат). Одним из доступных предикторов является уровень финансового баланса клиентов за периоды от t_0 до t-1. Может быть, это представляет ежемесячные наблюдения за предыдущие 12 месяцев (т.е. 12 измерений).

Я ищу способы построения функций из этой серии. Я использую описания каждой серии клиентов, такие как среднее, высокое, низкое, стандартное отклонение, соответствую регрессии OLS, чтобы получить тренд. Есть ли у них другие методы расчета характеристик? Другие меры изменения или волатильности?

ДОБАВЛЯТЬ:

Как упомянуто в ответе ниже, я также рассмотрел (но забыл добавить здесь) использование динамической деформации времени (DTW), а затем иерархическую кластеризацию на полученной матрице расстояний - создание некоторого количества кластеров и затем использование принадлежности к кластеру в качестве функции. Оценка результатов тестирования, вероятно, должна будет следовать процессу, в котором DTW был выполнен для новых случаев и центроидов кластера - сопоставление нового ряда данных с их ближайшими центроидами ...

machine-learning feature-selection time-series

— B_Miner
источник

7

ЛЮБЛЮ, чтобы увидеть написанную коробку, в которой собраны тематические исследования по разработке / извлечению функций

Пожалуйста, сообщите, если это поможет

Дискретность данных временных рядов http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf
Оптимизация дискретизации временных рядов для обнаружения знаний https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing
Опыт SAX: новое символическое представление временных рядов http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf
Индексирование для интерактивного исследования серии больших данных http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf
Обобщенная характеристика Extraction для структурного распознавания в данном временном ряде http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c
Вычисление и визуализация динамического выравнивания временной деформации в R: пакет dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf

— SemanticBeeng
источник

2

Здесь вы пытаетесь уменьшить размерность ваших функций. Вы можете искать уменьшение размерности, чтобы получить несколько вариантов, но один очень популярный метод - это анализ основных компонентов (PCA). Основные компоненты не могут быть интерпретированы, как варианты, которые вы упомянули, но они хорошо суммируют всю информацию.

— Бен
источник

Меня беспокоит этот ответ, что PCA не распознает четкую зависимость между сериями t и t + 1.

— B_Miner

Если т и т + 1 зависимость является тренд или сезонность - рассмотреть извлекая его и дело с остальными , как с независимыми переменными.

— Диего

2

Извлечение функций - это всегда сложная и менее обсуждаемая тема в литературе, поскольку она широко зависит от приложения.

Некоторые идеи, которые вы можете попробовать:

Необработанные данные, измеряется изо дня в день. Это вроде очевидно, с некоторыми последствиями и дополнительной предварительной обработки (нормализации) для того, чтобы сделать временные рамки разной длины, сравнимой.
Высшие моменты: асимметрия, эксцесс и т. Д.
Производное (ые): скорость эволюции
Промежуток времени не так велик, но, возможно, стоит попробовать некоторые функции анализа временных рядов, например, автокорреляцию.
Некоторые индивидуальные особенности, как нарушение сроков в течение нескольких недель и измерения количества вы уже измеряют каждую неделю по отдельности. Тогда нелинейный классификатор будет иметь возможность комбинировать, например, первую неделю черты с последней неделей особенности для того, чтобы получить представление об эволюции во время.

— iliasfl
источник

Хорошие предложения! Можете ли вы конкретизировать использование производных больше?

— B_Miner

Я полностью согласен с первым утверждением. Я ЛЮБЛЮ, чтобы увидеть коробку, в которой собраны тематические исследования по разработке / извлечению функций. Пословица заключается в том, что создание функции гораздо важнее, чем последний лучший алгоритм в прогнозирующей производительности модели.

— B_Miner

2

На первый взгляд, вам нужно извлечь элементы из вашего временного ряда (x - 12) - x. Одним из возможных подходов является вычисление итоговых метрик: среднего, дисперсии и т. Д. Но при этом вы потеряете всю информацию, связанную с временными рядами. Но данные, извлеченные из формы кривой, могут быть весьма полезными. Я рекомендую вам ознакомиться с этой статьей, где авторы предлагают алгоритм кластеризации временных рядов. Надеюсь, это будет полезно. В дополнение к такой кластеризации Вы можете добавить сводную статистику в список функций.

— sobach
источник

Спасибо за ссылку. Я также подумал об использовании DTW и иерархической кластеризации. Я экспериментировал с пакетом R для DWT. jstatsoft.org/v31/i07/paper

— B_Miner

1

Я специально рассмотрел создание n кластеров и использование членства в кластерах в качестве функции.

— B_Miner