Почему скип-грамм лучше для редких слов, чем CBOW?


Ответы:


14

В CBOW векторы из контекстных слов усредняются перед прогнозированием центрального слова. В скипграмме нет усреднения векторов вложения. Кажется, что модель может выучить лучшие представления для редких слов, когда их векторы не усредняются с другими контекстными словами в процессе прогнозирования.


13

Вот мое упрощенное и довольно наивное понимание разницы:

Как мы знаем, CBOW учится предсказывать слова по контексту. Или максимизируйте вероятность целевого слова, глядя на контекст. И это бывает проблемой для редких слов. Например, с учетом контекста yesterday was really [...] dayмодель CBOW скажет вам, что, скорее всего, это слово beautifulили nice. Подобные слова delightfulпривлекут гораздо меньше внимания к модели, поскольку она предназначена для прогнозирования наиболее вероятного слова. Редкие слова будут сглажены на многих примерах с более частыми словами.

С другой стороны, скип-грамма предназначена для прогнозирования контекста. Учитывая слово, delightfulоно должно понять его и сказать нам, что существует огромная вероятность, контекст yesterday was really [...] dayили какой-то другой соответствующий контекст. С пропуском слова delightfulне будет конкурировать со словом, beautifulно вместо этого delightful+contextпары будут рассматриваться как новые наблюдения. Из-за этого скип-грамму потребуется больше данных, чтобы он научился понимать даже редкие слова.


0

Я только что натолкнулся на статью, которая показывает обратное: CBOW лучше для редких слов, чем пропустить грамм https://arxiv.org/abs/1609.08293 . Интересно , каковы источники заявленной претензии на https://code.google.com/p/word2vec/ .


Я считаю, что Миколов написал этот инструментарий сам. Интересно, что в своей статье : apers.nips.cc/paper/… он заявляет: «Мы показываем, что подвыбор частых слов во время обучения приводит к значительному ускорению (примерно в 2-10 раз) и повышает точность представлений менее частых слов. " так что его скип-грамм с расширением подвыборки.
Кевин
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.