Ответы:
Категориальное распределение - это обобщение распределения Бернулли на фиксированное число результатов.
Эквивалентно, это частный случай полиномиального распределения, где число «вариантов» фиксировано в одном.
Следовательно, он имеет PDF:
Таким образом, Бернулли имеет , бином имеет , многочлен имеет , а категориальный имеет .
Категориальные переменные имеют конечные множества дискретных значений. Примеры включают пол (мужской / женский), страну, планету и т. Д. Сравните это с непрерывными переменными, которые могут принимать бесконечное число различных значений. Примеры включают вес, долготу, расстояние и т. Д.
Обратите внимание, что подобная информация иногда может быть выражена категорично и непрерывно; Например, planet = earth
может быть выражено как distance to sun = 1 astronomical unit ≈ 150 million kilometers
. Однако на самом деле нет никакого способа выразить 200 миллионов километров от Солнца в терминах планет, потому что там нет планеты (Марс находится на расстоянии 228 миллионов километров от Солнца). То же самое для 201 млн. Км, 202 и т. Д. Все, что вы можете сказать об этих расстояниях в терминах планет, это planet = none
; Вы не могли бы сказать planet = 4/3×earth
или .88×Mars
, потому что нет никакого значимого способа умножить планету или любую другую категориальную переменную. С точки зрения планет, эти расстояния были бы неразличимы, но, конечно, они имеют смысл как отличные расстояния от Солнца, если выражены как таковые, - как непрерывная переменная.
Можно также выразить непрерывные переменные с произвольной точностью (например, одна астрономическая единица составляет 149 597 871 км, а не точно 150 миллионов км). И наоборот, нет способа выразить planet = earth
более точно; Земля - это точно земля, не больше и не меньше. Кроме того, не имеет смысла говорить, что любая другая планета "больше" или "меньше" Земли, если planet
является номинальной переменной. Хотя это может быть закодировано как упорядоченная (порядковая) переменная - планеты упорядочены по расстоянию до Солнца, объему, количеству лун и т. Д. Все эти числа непрерывны в своих собственных терминах (или, по крайней мере, считаются дискретными). но не категорично), но не с точки зрения планет. Например, если планеты упорядочены по расстоянию от Солнца или по количеству лун mars > earth > venus
. Если планеты упорядочены по объему,earth > venus > mars
, Нет необходимости упорядочивать категориальные переменные, и, возможно, некоторые не могут быть упорядочены, но порядок добавления не делает их менее категоричными.
Как говорится в Википедии, категориальные распределения являются обобщением распределения Бернулли на более чем два возможных значения (распределение Бернулли строго бинарное). Распределение Бернулли также является частным случаем биномиального распределения, но я бы не назвал биномиальное распределение категоричным (оно дискретное, но переменная подсчета, поэтому расстояния между значениями определены). Полиномиальные распределения могут быть сопоставлены с категориальными распределениями, но Википедия предостерегает против этого .