Прогнозирующая эффективность зависит больше от опыта аналитика данных, чем от метода?

Я сталкивался со слухами о том, что некоторые исследования показали, что эффективность прогностических моделей больше зависит от опыта аналитика данных с выбранным методом, чем от выбора метода.
Другими словами, утверждается, что более важно, чтобы аналитик данных был знаком с выбранным методом, чем то, насколько «подходящим» этот метод может показаться для проблемы с более теоретической точки зрения.

Это было упомянуто в контексте хемометрики, которая обычно включает в себя проблемы многих вариаций (от 100 до 1000 с), множественной коллинеарности и, конечно, слишком малого количества образцов. Предсказание могло быть классификацией или регрессией.

Мой личный опыт показывает, что это правдоподобно , но исследование было упомянуто (я спросил человека, который упомянул об этом по электронной почте после быстрого, но безуспешного поиска, но так и не получил ответа). Однако, также с более сложным поиском, я не смог отследить какие-либо бумаги.

Кто-нибудь знает о таких выводах? Если нет, то что говорит личный опыт Больших Парней здесь?

predictive-models method-comparison

— cbeleites поддерживает Монику
источник

Здесь я больше похож на Маленького парня, но то, что я видел в Neural Networks, подтверждает эту гипотезу: это далеко не инструмент «из коробки», где «машина изучает» что-то, успешная классификация или предсказание, кажется, зависят от много о том, насколько умен человек, который говорит сети, как учиться на данных - что наиболее важно с точки зрения предварительной обработки данных, а также с точки зрения сетевой архитектуры и т. д.

— Стефан Коласса

Я думаю, что это рисунок 2.4 из «Элемента статистического обучения», где они сравнивают ближайших соседей с методами типа регрессии (и, конечно, они также предоставляют несколько точек сравнения на протяжении всей книги).

— StasK

@StasK: спасибо за напоминание (позор, что я не помню). Они также сообщают, что на практике ПЦР, PLS и регрессия гребня очень похожи, а также LDA и логистическая регрессия. Однако последние методы также очень похожи с теоретической точки зрения.

— cbeleites поддерживает Монику

На самом деле, я слышал слух о том, что приличные обучающие машины обычно лучше, чем эксперты, потому что человеческое стремление сводить к минимуму дисперсию за счет смещения (слишком гладкого), что приводит к плохой прогностической производительности в новом наборе данных. Машина откалибрована для минимизации MSE и, таким образом, имеет тенденцию улучшаться с точки зрения прогнозирования в новом наборе данных .

— guest47
источник

По моему опыту, это правда, что люди склонны переодеваться. Однако, по моему опыту, вам также нужен достойный эксперт, который выберет не слишком подходящую учебную машину. В противном случае кто-то просто выбирает учебную машину, которая подходит.

— cbeleites поддерживает Монику

MSE в целом не защищает от переоснащения, если вы не сильно ограничиваете модель - и тут снова приходит эксперт. Тем не менее, люди пытаются оптимизировать, например, гиперпараметры модели. Особенно подходят итеративные стратегии оптимизации (MSE или нет), если вы не можете позволить себе совершенно новый набор независимых тестовых данных для каждой итерации. Может быть, я должен сказать, что я родом из области, где контрольные примеры очень редки. И в любом случае вы можете утверждать, что это не приличная обучающая машина.

— cbeleites поддерживает Монику