Есть ли программное обеспечение, которое выполняет анализ текста в блогах? [закрыто]


8

Моя компания стремится создать PivotViewer для визуализации клиентских сообщений в блоге Wordpress 2 за последние 11 лет. Однако для этого нам нужно отредактировать несколько случайных, неполных и, как правило, плохих тегов для использования в качестве сортируемых категорий. Я ищу инструмент, который будет анализировать их записи в блоге и выполнять подсчет слов, чтобы дать нам представление о том, с чем мы имеем дело.

В идеале, он будет иметь все эти функции:

  1. Черный список слов (игнорировать)
  2. Слово stemming
  3. Пользовательский синоним слияния
  4. Подсчет всех использований
  5. Подсчет количества постов, в которых появляется слово.

Я бы подумал, что такого рода текстовый анализ был бы чрезвычайно распространенным, но я не смог найти ни одного программного обеспечения, которое бы делало подобные вещи во всех блогах. Есть ли программное обеспечение для этого?


3
Интересно. Если сомневаешься, у Питона твоя спина.
Джеймс Т Снелл

Да ... Я правда надеюсь, что мне не придется на этом кататься.
Брайан Бауман

есть кое-что, что делает это ... Я помню, как друг проанализировал Википедию ... Я
свяжусь

Ответы:


3

Программное обеспечение, которое вы ищете, может иметь много названий, таких как «Анализ содержимого» , «Облако тегов» или «Метатеги» и многие другие, такие как «Анализ текста» и «Анализ текста».

Для этих целей существует очень много программных инструментов, как бесплатных, так и коммерческих.

У меня нет личного опыта работы с такими инструментами, но хорошее место для начала - инструменты анализа текста , в которых перечислены десятки таких инструментов, как бесплатных, так и коммерческих.

Другим таким списком является программное обеспечение для анализа текста, интеллектуального анализа текста и поиска информации .


Я отфильтровал свой первый список, но ни одна из бесплатных опций не включает в себя намного больше, чем лингвистический анализ. Еще не просмотрели второй список - я могу закончить тем, что свернул свой собственный.
Брайан Бауман

2

Взгляните на Rapidminer или Weka

Видя, что это блог клиента, у вас, вероятно, есть доступ к базе данных. Загрузите все статьи в виде открытого текста и используйте одну из вышеперечисленных программ для решения вопросов обработки естественного языка (1, 2, 3 и 5).

Количество применений трудно по-настоящему автоматизировать, поскольку оно связано с автоматическим определением значения слов с использованием контекста.


Подсчет всех применений, а не пользователей. Спасибо за предложения, хотя.
Брайан Бауман

Я неправильно понял, мой плохой. Тем не менее вы должны проверить Rapidminer или Weka для обработки естественного языка. То есть, если набор данных не огромен, потому что оба пытаются поместить его в память
suweller

2

WordStat - одна из самых популярных программ анализа контента, разработанная Provalis Research.

WordStat - это модуль анализа текста для QDA Miner или SimStat. WordStat объединяет метод анализа содержимого с использованием словарного подхода и множества алгоритмов исследования или различных методов анализа текста. WordStat может применять существующие словари категоризации к новому текстовому корпусу. Он также может быть использован при разработке и валидации новых словарей категоризации. При использовании в сочетании с ручным кодированием этот модуль может помочь в более систематическом применении правил кодирования, помочь выявить различия в использовании слов между подгруппами отдельных лиц и помочь в пересмотре существующего кодирования с использованием таблиц KWIC (Keyword In Context). WordStat специально разработан для изучения текстовой информации, такой как ответы на открытые вопросы, интервью, заголовки, журнальные статьи, публичные выступления, электронные сообщения и т. Д.

http://provalisresearch.com/products/content-analysis-software/


1

Вы можете попробовать Mathematica Wolfram's попробовать. Вам придется немного программировать, но все необходимые инструменты есть:


0

На некоторые из этих вопросов можно было бы быстро и грязно ответить с помощью поиска Google в своем блоге (проще всего, если у него есть собственный домен).


0

Земанта проводит анализ и может предложить теги и ссылки. Это плагин WordPress тоже.

Единственная проблема: в настоящее время она требует ручного открытия, выбора и сохранения каждого сообщения.

Хотя для WordPress существует огромное количество плагинов для автоматической пометки. Вы должны искать плагин поиска и дать несколько попыток.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.