У меня есть 2 набора данных, один с положительными экземплярами того, что я хотел бы обнаружить, и один с немечеными экземплярами. Какие методы я могу использовать?
В качестве примера, предположим, что мы хотим понять, обнаруживать спам по электронной почте на основе нескольких структурированных характеристик электронной почты. У нас есть один набор данных из 10000 электронных писем со спамом и один набор данных из 100000 электронных писем, для которых мы не знаем, являются ли они спамом или нет.
Как мы можем решить эту проблему (не помечая вручную любые немаркированные данные)?
Что мы можем сделать, если у нас есть дополнительная информация о доле спама в немаркированных данных (т. Е. Что если мы оценим, что от 20 до 40% из 100000 непомеченных писем являются спамом)?