Моя компания стремится создать PivotViewer для визуализации клиентских сообщений в блоге Wordpress 2 за последние 11 лет. Однако для этого нам нужно отредактировать несколько случайных, неполных и, как правило, плохих тегов для использования в качестве сортируемых категорий. Я ищу инструмент, который будет анализировать их записи в блоге и выполнять подсчет слов, чтобы дать нам представление о том, с чем мы имеем дело.
В идеале, он будет иметь все эти функции:
- Черный список слов (игнорировать)
- Слово stemming
- Пользовательский синоним слияния
- Подсчет всех использований
- Подсчет количества постов, в которых появляется слово.
Я бы подумал, что такого рода текстовый анализ был бы чрезвычайно распространенным, но я не смог найти ни одного программного обеспечения, которое бы делало подобные вещи во всех блогах. Есть ли программное обеспечение для этого?