Я изучал полуобучаемые методы обучения и наткнулся на концепцию «псевдо-маркировки».
Насколько я понимаю, с псевдометкой у вас есть набор помеченных данных, а также набор немеченых данных. Сначала вы тренируете модель только по помеченным данным. Затем вы используете эти исходные данные для классификации (прикрепления предварительных меток) немаркированных данных. Затем вы подаете как помеченные, так и немаркированные данные обратно в обучение модели, (пере) подгоняя как известные метки, так и прогнозируемые метки. (Повторите этот процесс, перемаркировав обновленной моделью.)
Заявленные преимущества состоят в том, что вы можете использовать информацию о структуре немаркированных данных для улучшения модели. Часто показан вариант следующего рисунка, «демонстрирующий», что процесс может принимать более сложную границу принятия решения в зависимости от того, где находятся (немаркированные) данные.
Изображение из Wikimedia Commons от Techerin CC BY-SA 3.0
Однако я не совсем понимаю это упрощенное объяснение. Наивно, если исходный результат обучения только с меткой был верхней границей решения, псевдо-метки были бы назначены на основе этой границы решения. Это означает, что левая рука верхней кривой будет псевдо-маркирована белым, а правая нижняя кривая будет псевдо-маркирована черным. После переподготовки вы не получите хорошую границу принятия решения о кривых, поскольку новые псевдо-метки просто укрепят текущую границу решения.
Или, другими словами, текущая граница принятия решения только для меток будет иметь идеальную точность прогнозирования для немеченых данных (как мы и использовали для их создания). Там нет движущей силы (нет градиента), который заставил бы нас изменить местоположение этой границы решения, просто добавив данные с псевдо-меткой.
Правильно ли я считаю, что объяснение, представленное диаграммой, отсутствует? Или мне чего-то не хватает? Если нет, то есть польза от псевдо-меток, учитывая предварительно переобучение решения границы имеет идеальную точность по сравнению с псевдо-лейбл?