Почему скип-грамм лучше для редких слов, чем CBOW?

19

Интересно, почему skip-грамм лучше для редких слов, чем CBOW в word2vec. Я прочитал претензию на странице https://code.google.com/p/word2vec/ .

natural-language word2vec word-embeddings

— Франк Дернонкур
источник

14

В CBOW векторы из контекстных слов усредняются перед прогнозированием центрального слова. В скипграмме нет усреднения векторов вложения. Кажется, что модель может выучить лучшие представления для редких слов, когда их векторы не усредняются с другими контекстными словами в процессе прогнозирования.

— Аарон
источник

13

Вот мое упрощенное и довольно наивное понимание разницы:

Как мы знаем, CBOW учится предсказывать слова по контексту. Или максимизируйте вероятность целевого слова, глядя на контекст. И это бывает проблемой для редких слов. Например, с учетом контекста yesterday was really [...] dayмодель CBOW скажет вам, что, скорее всего, это слово beautifulили nice. Подобные слова delightfulпривлекут гораздо меньше внимания к модели, поскольку она предназначена для прогнозирования наиболее вероятного слова. Редкие слова будут сглажены на многих примерах с более частыми словами.

С другой стороны, скип-грамма предназначена для прогнозирования контекста. Учитывая слово, delightfulоно должно понять его и сказать нам, что существует огромная вероятность, контекст yesterday was really [...] dayили какой-то другой соответствующий контекст. С пропуском слова delightfulне будет конкурировать со словом, beautifulно вместо этого delightful+contextпары будут рассматриваться как новые наблюдения. Из-за этого скип-грамму потребуется больше данных, чтобы он научился понимать даже редкие слова.

— Serhiy
источник

0

Я только что натолкнулся на статью, которая показывает обратное: CBOW лучше для редких слов, чем пропустить грамм https://arxiv.org/abs/1609.08293 . Интересно , каковы источники заявленной претензии на https://code.google.com/p/word2vec/ .

— xsway
источник

Я считаю, что Миколов написал этот инструментарий сам. Интересно, что в своей статье : apers.nips.cc/paper/… он заявляет: «Мы показываем, что подвыбор частых слов во время обучения приводит к значительному ускорению (примерно в 2-10 раз) и повышает точность представлений менее частых слов. " так что его скип-грамм с расширением подвыборки.

— Кевин