Для экспериментов мы хотели бы использовать эмодзи, встроенные во многие твиты, в качестве базовых данных о правде / обучении для простого количественного анализа настроений. Твиты обычно слишком неструктурированы для НЛП, чтобы работать хорошо.
Так или иначе, в Unicode 6.0 есть 722 Emoji, и, вероятно, еще 250 будут добавлены в Unicode 7.0.
Есть ли база данных (например, SentiWordNet), которая содержит аннотации к ним?
(Обратите внимание, что SentiWordNet также допускает неоднозначные значения. Рассмотрим, например, смешно , что не просто положительно: «это смешно на вкус», вероятно, не положительно ... ;-)
То же самое можно сказать, например. Но я не думаю, что это сложнее для эмодзи, чем для обычных слов ...)
Кроме того, если у вас есть опыт использования их для анализа настроений, мне было бы интересно услышать.