Является ли сообщество машинного обучения «обусловленным» и «параметризованным»?

Скажем, зависит от . Строго говоря, $X$ $\alpha$

если и обе случайные величины, мы могли бы написать ; $X$ $\alpha$ $p(X\mid\alpha)$
однако, если - случайная величина, а - параметр, мы должны написать . $X$ $\alpha$ $p(X; \alpha)$

Я заметил несколько раз, что сообщество машинного обучения, кажется, игнорирует различия и злоупотребляет терминами.

Например, в известной модели LDA, где - это параметр Дирихле, а не случайная величина. $\alpha$

введите описание изображения здесь

Разве это не должно быть ? Я вижу, что многие люди, в том числе авторы оригинальной статьи LDA, пишут это как . $p(\theta;\alpha)$ $p(\theta\mid\alpha)$

machine-learning terminology

— Sibbs Gambling
источник

Говоря математически, вы всегда можете задать константу, так как это предельный случай случайной величины. С байесовской точки зрения все неизвестные рассматриваются как случайные величины, поэтому имеет смысл использовать условную нотацию повсюду.

— Сиань

@ Сиань, я понимаю твою точку зрения на «обусловленность на константу». Но представьте, что я рисую

из категориального распределения параметра

, то есть

. Могу ли я написать распределение как

? Это выглядит странно для меня, так как всегда можно установить фиксированное

выглядит более комфортно для меня.

X

$X$

θ

$\theta$

X \sim C a t (θ)

$X\sim Cat(\theta)$

p (X ∣ θ)

$p(X\mid\theta)$

θ

$\theta$

p (X; θ)

$p(X;\theta)$

— Сиббс Азартные игры

Я не вижу проблемы в написании

в этом частном случае. Еще раз, использование условных обозначений прокладывает путь для введения предыдущих распределений по каждому неизвестному параметру.

p (X ∣ θ)

$p(X\mid\theta)$

— Сиань

Я думаю, что это больше о байесовской / не байесовской статистике, чем машинное обучение против статистики.

В байесовской статистике параметр моделируется также как случайные величины. Если у вас есть совместное распределение для , является условным распределением, независимо от физической интерпретации и . Если рассматривать только фиксированные s или иначе не ставить распределение вероятностей по , вычисления с точно такие же, как с $X,\alpha$ $p(X \mid \alpha)$ $X$ $\alpha$ $\alpha$ $\alpha$ $p(X; \alpha)$ $p(X \mid \alpha)$ $p(\alpha)$ , Кроме того, в любой момент можно принять решение о расширении модели с фиксированными значениями до уровня, в котором имеется предварительное распределение по $\alpha$ $\alpha$ $\alpha$

Аргумент о том, можно ли написать как , также возник в комментариях к сообщению Эндрю Гельмана в блоге. Неправильное понимание значения . Например, Ларри Вассерман считал, что $p(X ; \alpha)$ $p(X \mid \alpha)$ $p$ $\mid$ не допускается, если нет кондиционирования от соединения, в то время как Эндрю Гельман придерживался противоположного мнения.

— Юхо Коккала
источник