Данные настроения для Emoji

Для экспериментов мы хотели бы использовать эмодзи, встроенные во многие твиты, в качестве базовых данных о правде / обучении для простого количественного анализа настроений. Твиты обычно слишком неструктурированы для НЛП, чтобы работать хорошо.

Так или иначе, в Unicode 6.0 есть 722 Emoji, и, вероятно, еще 250 будут добавлены в Unicode 7.0.

Есть ли база данных (например, SentiWordNet), которая содержит аннотации к ним?

(Обратите внимание, что SentiWordNet также допускает неоднозначные значения. Рассмотрим, например, смешно , что не просто положительно: «это смешно на вкус», вероятно, не положительно ... ;-)То же самое можно сказать, например. Но я не думаю, что это сложнее для эмодзи, чем для обычных слов ...)

Кроме того, если у вас есть опыт использования их для анализа настроений, мне было бы интересно услышать.

machine-learning classification parsing

— Эрих Шуберт
источник

Не верьте, что что-то подобное существует в настоящее время, но было бы приятно, если бы вы собрали что-то для этого!

— индик.

Эрих Шуберт, я ищу то же самое! Был ли у вас шанс найти для него полезный ресурс?

— Саид Мехраби

Ответы:

Итого 972 смайлика не так уж и велики, чтобы не иметь возможности пометить их вручную, но я сомневаюсь, что они сработают как хорошая правда. Источники, такие как Twitter, полны иронии, сарказма и других хитрых ситуаций, где эмоциональные символы (такие как эмодзи или смайлик) означают нечто отличное от обычной интерпретации. Например, кто-то может написать «ххх обманул своих клиентов, и теперь они сами себя обманули! Ха-ха-ха!: D». Это, безусловно, отрицательный комментарий, но автор рад видеть компанию ХХХ в беде и тем самым добавляет позитивный смайлик. Эти случаи не так часты, но определенно не подходят для обоснованной правды.

Гораздо более распространенным подходом является использование смайлика в качестве начального числа для сбора фактического набора данных . Например, в этой статье авторы используют смайлики и эмоциональные хеш-теги, чтобы получить словарь слов, полезных для дальнейшей классификации.

— ffriend
источник

На самом деле я не согласен. Поскольку автору нравится, что они попали в беду, это позитивное настроение. Это отрицательный отзыв о компании, но, тем не менее, позитивный настрой автора. В этом более простом сценарии (я не говорю, что это полная цель), предсказание того, какие смайлики добавит пользователь в свой пост, звучит для меня как разумная задача. На самом деле вы можете построить много случаев, когда эмодзи будут важны .. Рассмотрим «Got f_cked :-)», а не «Got f_cked. :-(»

— Эрих Шуберт,

Если вы пытаетесь оценить эмоции человека, а не отношение человека к предмету, то да, этот пример не работает. Но есть много других. Сарказм является частым случаем. Подумайте над предложением «о, да, вы настоящий мастер»;). Человек может уловить негативный контекст, но позитивный смайлик укажет на позитивные эмоции. Но я не совсем понял: хотите извлечь субъективную информацию из твитов или просто предсказать возможные смайлики? Хотя они и звучат одинаково, вторая задача на самом деле не связана с анализом настроений. По крайней мере, не напрямую.

— друг

Смайлик «подмигивать» обычно не считается «позитивным», а «ироничным» ... вот почему такой хороший словарь, как SentiWordNet, имеет смысл. Если вы смотрите смешно в SentiWordNet, это тоже имеет несколько значений! sentiwordnet.isti.cnr.it/search.php?q=funny (Так что это не тривиальная аннотировать их вручную, потому что это не так просто , как положительные / отрицательные, но вы должны сделать проверку обычной межэкспертный-соглашения и т.д.)

— Эрих Шуберт

Теперь я вижу твою идею. Но я не думаю, что это сработает, просто потому, что (большинство) эмодзи для меня не очень хорошие предсказатели, и вы явно не хотите использовать другие функции. В любом случае, это просто мнение, основанное на моем опыте, только данные могут дать реальные ответы. Удачи!

— друг

Кто сказал, что я не хочу использовать другие функции? Но для этих я видел базы данных ...

— Эрих Шуберт

Я нашел этот репозиторий Github полезным (хорошее начало): https://github.com/wooorm/emoji-emotion Список смайликов, оцененных по валентности, с целым числом от минус пяти (отрицательный) до плюс пяти (положительный).

См. Список поддерживаемых юникод-смайликов: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Обратите внимание, что некоторые смайлики могут получить запутанную полярность, такую как stuck_out_tongue_closed_eyes (0), из-за того, что используются как для положительных, так и для отрицательных эмоций.

— Таль Вайс
источник