Для прогностического моделирования, нужно ли нам заниматься статистическими понятиями, такими как случайные эффекты и отсутствие независимости наблюдений (повторные измерения)? Например....
У меня есть данные из 5 кампаний прямой почтовой рассылки (проводившихся в течение года) с различными атрибутами и флагом для покупки. В идеале я бы использовал все эти данные вместе, чтобы построить модель для покупки с учетом атрибутов клиента во время кампании. Причина в том, что событие покупки происходит редко, и я хотел бы использовать как можно больше информации. Существует вероятность того, что данный клиент может участвовать в любом из 1–5 кампаний, что означает отсутствие независимости между записями.
Имеет ли это значение при использовании:
1) подход машинного обучения (например, дерево, MLP, SVM)
2) Статистический подход (логистическая регрессия)?
**ADD:**
Я думаю о прогнозном моделировании, если модель работает, используйте ее. Так что я никогда не задумывался о важности предположений. Размышление о случае, который я описал выше, заставило меня задуматься.
Возьмите алгоритмы машинного обучения, такие как MLP and SVM
. Они успешно используются для моделирования двоичного события, такого как мой пример выше, но также и для данных временных рядов, которые четко коррелируют. Однако многие используют функции потерь, которые являются вероятностными и получены из предположения, что ошибки устранены. Например, деревья с градиентным усилением в R gbm
используют функции потери девиации, полученные из бинома ( стр. 10 ).