После обучения векторов слов с помощью word2vec, лучше ли их нормализовать, прежде чем использовать их для некоторых последующих приложений? Т.е. каковы плюсы / минусы их нормализации?
После обучения векторов слов с помощью word2vec, лучше ли их нормализовать, прежде чем использовать их для некоторых последующих приложений? Т.е. каковы плюсы / минусы их нормализации?
Ответы:
Когда последующие приложения заботятся только о направлении векторов слов (например, они обращают внимание только на косинусное сходство двух слов), тогда нормализуются и забывают о длине.
Однако, если последующие приложения могут (или должны) учитывать более разумные аспекты, такие как значимость слова или последовательность в использовании слова (см. Ниже), то нормализация может быть не такой хорошей идеей.
Из Леви и др., 2015 (и, по сути, большая часть литературы по встраиванию слов):
Векторы нормализуются к длине единицы, прежде чем они используются для вычисления подобия, что делает косинусное сходство и эквивалент точечного произведения.
Также от Уилсона и Шакеля, 2015 :
Большинство применений вложения слов исследуют не сами векторы слов, а отношения между ними, например, для решения задач подобия и отношения слов. Для этих задач было обнаружено, что использование нормализованных векторов слов повышает производительность. Поэтому длина вектора слова обычно игнорируется.
Нормализация эквивалентна потере понятия длины. То есть, как только вы нормализуете векторы слов, вы забываете длину (норму, модуль), которую они имели сразу после фазы обучения.
Однако иногда стоит учитывать исходную длину векторов слова.
Schakel and Wilson, 2015 наблюдали некоторые интересные факты, касающиеся длины векторов слов:
Слово, которое последовательно используется в аналогичном контексте, будет представлено более длинным вектором, чем слово той же частоты, которое используется в разных контекстах.
Важную информацию несет не только направление, но и длина векторов слов.
Длина вектора слова обеспечивает, в сочетании с частотой термина, полезную меру значимости слова.