Я потратил три дня на то, чтобы поболтать с tm
читателем черновика статьи от друга, где он исследовал текстовый корпус с помощью UCINET, показывая текстовые облака, двухрежимные сетевые графики и разложение по одному значению (с графикой, используя Stata). Я столкнулся с большим количеством проблем: в Mac OS X есть проблемы с Java, стоящие за такими библиотеками, как Snowball (stemming) или Rgraphviz (graphs).
Может кто - то отметить не пакеты - я посмотрел на tm
, wordfish
и wordscores
, и знать о NLTK - но исследование, если это возможно с кодом, на текстовые данные, которые успешно использует tm
или что - то еще , чтобы анализировать данные , такие как парламентские дебаты и законодательные документы?Я не могу найти много по этому вопросу, и даже меньше кода, чтобы учиться.
Мой собственный проект - это двухмесячные парламентские дебаты, в которых данные переменных представлены в файле CSV: парламентская сессия, спикер, парламентская группа, текст устного выступления. Я ищу расхождения между ораторами и особенно между парламентскими группами в использовании редких и менее редких терминов, например, «разговоры о безопасности» против разговоров о «гражданских свободах».