Прежде всего, как уже объяснял @Marc Claesen, классификация под наблюдением - это один из методов, позволяющих позаботиться о ситуации, когда вы знаете, что классы действительно различны, но вы не уверены, к какому классу на самом деле относится данный случай.
Тем не менее, есть и связанные ситуации, когда «реальность» не так ясна, и предположение о наличии действительно различных классов не выполняется: пограничные случаи могут быть «физической» реальностью (см. Ниже статьи о приложении где мы встретили такое условие).
Существует одно критическое предположение для полуконтролируемых классификаторов, которое необходимо убедиться, что оно выполнено: допущение, что в пространстве признаков границы классов сопровождаются низкой плотностью выборки . Это называется предположением кластера.
Даже если реальность, лежащая в основе ваших данных, имеет разные классы, в вашем наборе данных может быть непропорционально больше пограничных случаев: например, если ваша методика классификации нацелена на классификацию трудных случаев, тогда как ясные и простые случаи не представляют интереса, и уже ваши данные обучения отражают это ситуация.
только принимая "определенные" классификации для обучения? Я боюсь, что в этом случае будет больше ошибочных классификаций, потому что «пограничные» случаи не охватываются.
Я полностью согласен с вами, что исключение пограничных случаев часто является плохой идеей: удаляя все сложные случаи, вы сталкиваетесь с искусственно легкой проблемой. ИМХО, еще хуже, что исключение пограничных случаев обычно не заканчивается обучением модели, но пограничные случаи также исключаются из тестирования, таким образом, тестирование модели только в простых случаях. При этом вы даже не поймете, что модель плохо работает с пограничными случаями.
Вот две статьи, которые мы написали о проблеме, которая отличается от вашей тем, что в нашем приложении реальность также может иметь «смешанные» классы (более общая версия вашей проблемы: неопределенность в ссылочных метках также покрыта).
- Применение: диагностика опухолей головного мозга. Мы использовали логистическую регрессию. Полу-контролируемое моделирование не подходит, так как мы не можем предполагать низкую плотность выборки на границах классов.
C. Beleites, K. Geiger, M. Kirsch, SB Sobottka, G. Schackert и R. Salzer: Рамановская спектроскопическая классификация тканей астроцитомы: с использованием мягкой справочной информации, Anal. Bioanal. Chem., 400 (2011), 2801 - 2816.
- Теоретическая статья, выводящая общую основу для измерения эффективности классификатора для пограничных случаев.
C. Beleites, R. Salzer и V. Sergo:
валидация моделей мягкой классификации с использованием частичного членства в классах: расширенная концепция чувствительности & Co, примененная к классификации астроцитомных тканей
Chemom. Интелл. Лаборатория Syst., 122 (2013), 12 - 22.
Ссылки ведут на страницу проекта пакета R, который я разработал для расчета производительности. Есть дополнительные ссылки и на официальную веб-страницу, и на мои рукописи из газет. Пока я не использовал Weka, но понимаю, что интерфейс для R доступен .
практические соображения:
- Хотя подход «копировать и метить по-другому» прост, он не очень хорошо работает на практике со всеми классификаторами и реализациями. Например, AFAIK нет способа сообщить
libSVM
настройке путем перекрестной проверки, что все копии каждой точки данных должны храниться в одной и той же папке перекрестной проверки. Таким образом, libSVM
настройка s, вероятно, дала бы в значительной степени подходящую модель.
- Также для логистической регрессии я обнаружил, что во многих реализациях не разрешены метки частичного членства, которые мне нужны.
- Реализация, которую я использовал для работ выше, на самом деле представляет собой ANN без скрытого слоя, использующего логистику в качестве сигмоидальной функции связи (
nnet::multinom
).