Я пытаюсь визуально сравнить, как три разные новостные публикации освещают разные темы (определенные с помощью модели тем LDA). Для этого у меня есть два связанных метода, но я получил много отзывов от коллег, что это не очень интуитивно понятно. Я надеюсь, что у кого-то есть лучшая идея для визуализации этого.
На первом графике я показываю пропорции каждой темы в каждой публикации, например:
Это довольно просто и интуитивно понятно почти всем, с кем я разговаривал. Тем не менее, трудно увидеть различия между публикациями. Какая газета освещает какую тему больше?
Чтобы добиться этого, я изобразил разницу между публикацией с самой высокой и второй по величине пропорцией тем, окрашенных публикацией с самой высокой. Как это:
Так, например, огромная полоса для футбола - это действительно расстояние между «Аль-Ахрам Инглиш» и «Дейли Ньюс Египет» (№ 2 по освещению футбола), и оно окрашено в красный цвет, потому что «Аль-Ахрам» № 1. Точно так же, испытания являются зелеными, потому что Независимый Египет имеет наибольшую долю, а размер бара - это расстояние между Независимым Египтом и Daily News Egypt (снова №2).
Тот факт, что я должен объяснить, что все в двух параграфах является довольно верным признаком того, что график не проходит тест на самодостаточность. Трудно сказать, что на самом деле происходит, просто глядя на это.
Какие-нибудь общие предложения о том, как визуально выделить доминирующую публикацию для каждой темы более интуитивным способом?
Изменить: Данные для воспроизведения: Здесь dput
вывод из R , а также файл CSV .
Редактировать 2: Вот предварительная версия точечного графика с диаметрами точек, пропорциональными пропорции темы в корпусе (именно так темы были изначально отсортированы). Хотя мне все еще нужно немного подправить его, он кажется гораздо более интуитивным, чем то, что я делал раньше. Спасибо всем!