Примеры интеллектуального анализа текста с помощью R (пакет tm)


14

Я потратил три дня на то, чтобы поболтать с tmчитателем черновика статьи от друга, где он исследовал текстовый корпус с помощью UCINET, показывая текстовые облака, двухрежимные сетевые графики и разложение по одному значению (с графикой, используя Stata). Я столкнулся с большим количеством проблем: в Mac OS X есть проблемы с Java, стоящие за такими библиотеками, как Snowball (stemming) или Rgraphviz (graphs).

Может кто - то отметить не пакеты - я посмотрел на tm, wordfishи wordscores, и знать о NLTK - но исследование, если это возможно с кодом, на текстовые данные, которые успешно использует tmили что - то еще , чтобы анализировать данные , такие как парламентские дебаты и законодательные документы?Я не могу найти много по этому вопросу, и даже меньше кода, чтобы учиться.

Мой собственный проект - это двухмесячные парламентские дебаты, в которых данные переменных представлены в файле CSV: парламентская сессия, спикер, парламентская группа, текст устного выступления. Я ищу расхождения между ораторами и особенно между парламентскими группами в использовании редких и менее редких терминов, например, «разговоры о безопасности» против разговоров о «гражданских свободах».


Ответы:


7

Диссертация на соискание ученой степени доктора Инго Фейнерер из Австрии написана на английском языке. Главы 7-10 этого документа содержат приложения пакета tm, с возрастающей сложностью.

http://epub.wu.ac.at/1923/

Глава 7 представляет применение tm путем анализа списка рассылки R-devel 2006. В главе 8 показано применение интеллектуального анализа текста для бизнеса к потребительской электронной торговле. Глава 9 является заявлением ТМ для расследования юрисдикций верховного административного суда Австрии в отношении сборов и налогов. [...] . В главе 10 показано приложение для стилометрии и определения авторства в наборе данных Wizard of Oz.

Прочитайте всю обложку документа к обложке. Обратите внимание, однако, что документ был написан в 2008 году, и с тех пор было несколько изменений API, например, в диссертации PhD упоминается функция tmMap(), которая была переименована вtm_map() . Таким образом, примеры кода не будут работать как есть, вы не можете использовать метод «вырезать и вставить», чтобы попробовать их.

Вы также можете перейти к

http://tm.r-forge.r-project.org/users.html

«В попытке информировать новых пользователей о существующих приложениях ТМ, этот сайт стремится предоставить (неполный алфавитный) список пользователей ТМ и их комментарии. Известные пользователи варьируются от исследовательских институтов до компаний и частных лиц».

и поищите на этой странице фразу «написал статью», и вы найдете много ссылок. Я прочитал только одну из статей, "автоматическое определение темы в текстах песен". Довольно интересно и забавно.


Я думаю, что диссертация Фейнерера - это документ, который помог мне до сих пор. Благодарность!
о.

5

Хорошее место для начала может быть список публикаций на веб-сайте tm, таких как этот:

Список литературы в конце каждой из этих публикаций включает успешные применения tm , что вы, похоже, ищете. Их много - особенно если вы потом будете следовать ссылкам из ссылок.

Например, вот тот, который может иметь отношение:

Feinerer I, Hornik K (2007). \ Text Mining Высших административных судебных юрисдикций. "В C. Preisach, H. Burkhardt, L Schmidt-Thieme, R Decker (eds.), \ Анализ данных, машинное обучение и приложения (Материалы 31-й ежегодной конференции Gesellschaft f ur Klassikation eV, 7 марта {9, 2007, Фрайбург, Германия), "Исследования в области классификации, анализа данных и организации знаний. Springer-Verlag.

Удачи.


Спасибо за ссылки. Однако уровень детализации в этих публикациях недостаточен - мне пришлось читать из диссертации Фейнерера, чтобы получить достаточно подробностей о том, как действовать tmс моей стороны. Тем не менее, большое спасибо :)
о.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.