Я недавно прочитал четыре книги в этой области:
Фельдман Р. и Джеймс Сэнджер Дж. (2006). Руководство по добыче текста: современные подходы к анализу неструктурированных данных. Издательство Кембриджского университета.
Этот документ посвящен практическим примерам, программному и прикладному анализу текста. Это дает множество примеров практического использования текстового майнинга. Это может быть интересно, если вы хотите прочитать о коммерческих приложениях инструментов интеллектуального анализа текста.
Сривастава А. Н. и Сахами М. (2009). Text Mining: классификация, кластеризация и приложения. Чепмен и Холл / CRC.
Это серия исследовательских работ, которые используются в качестве примеров использования различных инструментов интеллектуального анализа текста. Это скорее слишком сфокусировано, как для вступительного испытания.
Вайс С.М., Индурхья Н., Чжан Т. и Дамерау Ф. (2005). Text Mining: Прогнозные методы анализа неструктурированной информации.
Springer.
Очень вводный текст, который описывает некоторые общие вопросы.
Мэннинг, C. (1999). Основы статистической обработки естественного языка. MIT Press.
Это лучшая книга, которую я уже прочитал на эту тему. Он хорошо написан, понятен, углубляется в теорию, но в практическом плане. Начинается с общего введения, но затем рассматриваются некоторые из наиболее часто используемых методов и алгоритмов. Если вам нужно выбрать только одну книгу, я бы порекомендовал эту.
Вы также можете легко найти несколько книг по обработке естественного языка и интеллектуальному анализу текста, которые фокусируются на использовании R ( библиотека tm ) или Python ( библиотека nltk ).