Из того, что я прочитал:
A Distant supervision algorithm usually has the following steps:
1] It may have some labeled training data
2] It "has" access to a pool of unlabeled data
3] It has an operator that allows it to sample from this unlabeled
data and label them and this operator is expected to be noisy in its labels
4] The algorithm then collectively utilizes the original labeled training data
if it had and this new noisily labeled data to give the final output.
Самообучение ( Йейтс, Александр и др. "Textrunner: открытая добыча информации в Интернете". Материалы по технологиям человеческого языка: Ежегодная конференция североамериканского отделения Ассоциации вычислительной лингвистики: демонстрации. Ассоциация компьютерной лингвистики, 2007 г. )
Ученик работает в два этапа. Во-первых, он автоматически маркирует свои собственные данные тренировки как положительные или отрицательные. Во-вторых, он использует эти помеченные данные для обучения наивного байесовского классификатора.
Слабый надзор (Хоффманн, Рафаэль и др. «Слабый надзор на основе знаний для извлечения информации из перекрывающихся отношений». Материалы 49-го ежегодного собрания Ассоциации вычислительной лингвистики: Технологии человеческого языка. Том 1. Ассоциация компьютерной лингвистики, 2011 г. .):
Более многообещающий подход, часто называемый «слабым» или «дистанционным» надзором, создает собственные обучающие данные путем эвристического сопоставления содержимого базы данных с соответствующим текстом.
Все это звучит одинаково для меня, за исключением того, что самообучение, кажется, немного отличается тем, что эвристика маркировки является обученным классификатором, и существует фаза между фазой маркировки и фазой обучения классификатора. Тем не менее, Яо, Лимин, Себастьян Ридель и Эндрю МакКаллум. « Коллективное извлечение взаимосвязей между документами без помеченных данных». Материалы конференции 2010 года по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 2010. утверждают, что дистанционный надзор == самообучение == слабый надзор.
Кроме того, есть ли другие синонимы ?