Прогнозирующее моделирование. Должны ли мы заботиться о смешанном моделировании?

Для прогностического моделирования, нужно ли нам заниматься статистическими понятиями, такими как случайные эффекты и отсутствие независимости наблюдений (повторные измерения)? Например....

У меня есть данные из 5 кампаний прямой почтовой рассылки (проводившихся в течение года) с различными атрибутами и флагом для покупки. В идеале я бы использовал все эти данные вместе, чтобы построить модель для покупки с учетом атрибутов клиента во время кампании. Причина в том, что событие покупки происходит редко, и я хотел бы использовать как можно больше информации. Существует вероятность того, что данный клиент может участвовать в любом из 1–5 кампаний, что означает отсутствие независимости между записями.

Имеет ли это значение при использовании:

1) подход машинного обучения (например, дерево, MLP, SVM)

2) Статистический подход (логистическая регрессия)?

**ADD:**

Я думаю о прогнозном моделировании, если модель работает, используйте ее. Так что я никогда не задумывался о важности предположений. Размышление о случае, который я описал выше, заставило меня задуматься.

Возьмите алгоритмы машинного обучения, такие как MLP and SVM. Они успешно используются для моделирования двоичного события, такого как мой пример выше, но также и для данных временных рядов, которые четко коррелируют. Однако многие используют функции потерь, которые являются вероятностными и получены из предположения, что ошибки устранены. Например, деревья с градиентным усилением в R gbmиспользуют функции потери девиации, полученные из бинома ( стр. 10 ).

— B_Miner
источник

Это будет иметь значение для статистических подходов, которые предполагают независимость между записями, потому что вы имеете дело с повторными измерениями.

— Мишель

Мне кажется, одно из главных отличий между машинным обучением, ориентированным на прогнозирование, и статистикой, ориентированной на умозаключения, заключается именно в том, что вы говорите, B_Miner. Машинное обучение больше касается того, что работает, в то время как традиционная статистика уделяет особое внимание предположениям. В обоих случаях вам необходимо знать о допущениях / свойствах ваших подходов, а затем принимать обоснованное решение, независимо от того, имеют ли они значение или нет. Вы можете обманывать себя в прогностическом моделировании о том, работает ли ваша модель, если вы не понимаете предположений / свойств подхода.

— Энн З.

@ AnneZ. Если вы следуете рекомендованному подходу к валидации для обучения, тестирования и валидации (все достаточно большие выборки) в прогностическом моделировании, и вы найдете что-то, что работает, нужно ли еще беспокоиться, если базовые предположения выполнены? Я, конечно, не рекомендую бессмысленное применение ML, мне просто интересно ...

— Штеффен

В этом контексте может быть интересна статья «Статистическое моделирование: две культуры» , которая обсуждается в третьем кросс-валидированном журнальном клубе

— steffen

Мне самому это интересно , и вот мои предварительные выводы. Я был бы рад, если бы кто-нибудь мог дополнить / исправить это своими знаниями и любыми ссылками на эту тему.

Если вы хотите проверить гипотезы о коэффициентах логистической регрессии, проверив статистическую значимость, вам необходимо смоделировать корреляцию между наблюдениями (или иным образом исправить несезависимость), потому что в противном случае ваши стандартные ошибки будут слишком малы, по крайней мере, если вы рассматриваете кластерные эффекты. Но коэффициенты регрессии беспристрастны даже при коррелированных наблюдениях, поэтому следует использовать такую модель для прогнозирования.

В прогностическом моделировании вам не нужно явно учитывать корреляцию при обучении вашей модели, используете ли вы логистическую регрессию или какой-либо другой подход. Однако, если вы хотите использовать набор удержания для проверки или вычисления ошибки вне выборки, вы должны убедиться, что наблюдения для каждого отдельного человека присутствуют только в одном наборе, либо в обучении, либо в проверке, но не в обоих. В противном случае ваша модель будет предсказывать для людей, о которых она уже имеет некоторую информацию, и вы не получите истинное представление о возможности классификации вне выборки.

— Энн З.
источник