Я думаю, что это больше о байесовской / не байесовской статистике, чем машинное обучение против статистики.
В байесовской статистике параметр моделируется также как случайные величины. Если у вас есть совместное распределение для , p ( X ∣ α ) является условным распределением, независимо от физической интерпретации X и α . Если рассматривать только фиксированные α s или иначе не ставить распределение вероятностей по α , вычисления с p ( X ; α ) точно такие же, как с p ( X ∣ α ) )X,αp(X∣α)Xαααp(X;α)p(X∣α)p(α), Кроме того, в любой момент можно принять решение о расширении модели с фиксированными значениями до уровня, в котором имеется предварительное распределение по αααα
Аргумент о том, можно ли написать как p ( X ∣ α ) , также возник в комментариях к сообщению Эндрю Гельмана в блоге. Неправильное понимание значения p . Например, Ларри Вассерман считал, что ∣p(X;α)p(X∣α)p∣ не допускается, если нет кондиционирования от соединения, в то время как Эндрю Гельман придерживался противоположного мнения.