Как Наивный Байес работает с непрерывными переменными?

14

Насколько я понимаю (очень базовое), Наивный Байес оценивает вероятности, основываясь на частотах классов каждой функции в обучающих данных. Но как рассчитать частоту непрерывных переменных? И когда вы делаете прогноз, как он классифицирует новое наблюдение, которое может не иметь одинаковых значений любого наблюдения в обучающем наборе? Использует ли он какую-то меру расстояния или находит 1NN?

— XYY
источник

Вот сравнение между дискретным и непрерывным наивным

— Esmailian

10

Есть много способов выполнить наивную байесовскую классификацию (NBC). Обычный метод в NBC - это перекодирование значений признаков (переменных) в квартили, так что значениям, меньшим 25-го процентиля, присваиваются 1, 25–50-й a 2, 50–75-м a 3 и больше 75-го процентиля a 4. Таким образом, один объект внесет один счет в ячейки Q1, Q2, Q3 или Q4. Расчеты просто делаются на этих категориальных бинах. Количество бинов (вероятностей) затем основывается на количестве выборок, чьи значения переменных попадают в данный бин. Например, если набор объектов имеет очень высокие значения для функции X1, то это приведет к большому количеству бинов в бине для Q4 из X1. С другой стороны, если другой набор объектов имеет низкие значения для признака X1, то эти объекты будут вносить большое количество отсчетов в ячейку для Q1 признака X1.

Это на самом деле не очень умный расчет, это скорее способ дискретизации непрерывных значений для дискретного и последующего использования. Индекс Джини и прирост информации можно легко рассчитать после дискретизации, чтобы определить, какие функции являются наиболее информативными, т. Е. Max (Джини).

Имейте в виду, однако, что есть много способов выполнить NBC, и многие из них сильно отличаются друг от друга. Так что вам просто нужно указать, какой из них вы реализовали в докладе или на бумаге.

— wrktsj
источник

2

Сердцем Наивного Байеса является героическое условное предположение:

P (x ∣ X, C) = P (x ∣ C)

$P(x \mid X, C) = P(x \mid C)$

$x$ $C$ $p(x \mid C = i) = \phi(\mu_i, \sigma^2_i)$

Существуют разные способы оценки параметров, но, как правило, можно:

Используйте максимальную вероятность с помеченными данными. (В случае нормального распределения оценки максимального правдоподобия среднего значения и дисперсии - это, в основном, выборочное среднее и выборочная дисперсия.)
Что-то вроде алгоритма EM с немаркированными данными.

— Мэтью Ганн
источник