Ради простоты, скажем, я работаю над классическим примером писем со спамом / без спама.
У меня есть набор из 20000 писем. Из них я знаю, что 2000 являются спамом, но у меня нет примеров писем, не являющихся спамом. Я хотел бы предсказать, являются ли оставшиеся 18000 спамом или нет. В идеале, результат, который я ищу, - это вероятность (или значение p) того, что электронная почта является спамом.
Какой алгоритм (ы) я могу использовать, чтобы сделать разумный прогноз в этой ситуации?
В данный момент я думаю о дистанционном методе, который бы сказал мне, насколько моя электронная почта похожа на известную спам-электронную почту. Какие варианты у меня есть?
В более общем смысле, могу ли я использовать метод обучения под наблюдением или мне обязательно нужно иметь отрицательные случаи в моем тренировочном наборе, чтобы сделать это? Я ограничен необученными подходами к обучению? Как насчет методов под наблюдением?