В чем смысл собственных векторов взаимной информационной матрицы?


14

При взгляде на собственные векторы ковариационной матрицы мы получаем направления максимальной дисперсии (первый собственный вектор - это направление, в котором данные наиболее сильно варьируются и т. Д.); это называется анализ главных компонентов (PCA).

Мне было интересно, что это будет означать, чтобы посмотреть на собственные векторы / значения матрицы взаимной информации, они будут указывать в направлении максимальной энтропии?


4
Я не знаю, но только что узнал, что матрицы взаимной информации не всегда положительно полуопределены: arxiv.org/abs/1307.6673 .
говорит амеба: восстанови Монику

3
Это напоминает то, над чем мы работали: people.eng.unimelb.edu.au/baileyj/papers/frp0038-Vinh.pdf
Симона

Ответы:


3

Хотя это и не прямой ответ (так как речь идет о точечной взаимной информации), посмотрите на статью, в которой слово word2vec относится к разложению матрицы PMI по сингулярному значению :

Мы анализируем скип-грамму с отрицательной выборкой (SGNS), метод вложения слов, введенный Миколовым и др., И показываем, что он неявно факторизует матрицу слова-контекста, ячейки которой являются точечной взаимной информацией (PMI) соответствующего пары слова и контекста, сдвинутые на глобальную константу. Мы находим, что другой метод внедрения, NCE, неявно разлагает подобную матрицу, где каждая ячейка представляет собой (сдвинутую) логическую условную вероятность слова, учитывая его контекст. Мы показываем, что использование разреженной матрицы контекста с положительным PMI для представления слов улучшает результаты для двух задач по сходству слов и одной из двух задач по аналогии. Когда предпочтительны плотные низкоразмерные векторы, точная факторизация с помощью SVD позволяет получить решения, которые, по крайней мере, так же хороши, как решения SGNS для задач схожести слов. По вопросам аналогии СГНС остается выше, чем СВД. Мы предполагаем, что это связано с взвешенным характером факторизации SGNS.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.