программирование nltk

7

Что такое «энтропия и получение информации»?

Я читаю эту книгу ( NLTK ), и это сбивает с толку. Энтропия является определяется как : Энтропия - это сумма вероятностей каждой метки, умноженная на логарифмическую вероятность той же самой метки. Как я могу применить энтропию и максимальную энтропию с точки зрения интеллектуального анализа текста? Может ли кто-нибудь дать …

338 math text computer-science nltk text-mining

15

Не удалось загрузить english.pickle с помощью nltk.data.load

При попытке загрузить punktтокенизатор ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... LookupErrorбыл поднят: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > …

144 python jenkins nltk

8

Какие есть все возможные pos-теги NLTK?

Как мне найти список со всеми возможными тегами pos, используемыми в Natural Language Toolkit (nltk)?

143 python nltk

15

н-граммов в питоне, четыре, пять, шесть граммов?

Ищу способ разбить текст на n-граммы. Обычно я бы сделал что-то вроде: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Я знаю, что nltk предлагает только биграммы и триграммы, но есть ли способ разбить мой текст на четыре …

137 python string nltk n-gram

9

Как проверить, является ли слово английским словом с помощью Python?

Я хочу проверить в программе Python, есть ли слово в английском словаре. Я считаю, что интерфейс nltk wordnet может быть подходящим вариантом, но я понятия не имею, как его использовать для такой простой задачи. def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) В будущем я, возможно, захочу проверить, …

134 python nltk wordnet

9

В чем разница между лемматизацией и стеммингом?

Когда я использую каждый? Кроме того ... зависит ли лемматизация NLTK от частей речи? Было бы точнее, если бы это было так?

132 python nlp nltk lemmatization

11

Как избавиться от знаков препинания с помощью токенизатора NLTK?

Я только начинаю использовать NLTK и не совсем понимаю, как получить список слов из текста. Если я использую nltk.word_tokenize(), я получаю список слов и знаков препинания. Вместо этого мне нужны только слова. Как избавиться от знаков препинания? Также word_tokenizeне работает с несколькими предложениями: к последнему слову добавляются точки.

125 python nlp tokenize nltk

12

Как удалить стоп-слова с помощью nltk или python

Итак, у меня есть набор данных, из которого я хотел бы удалить стоп-слова. stopwords.words('english') Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто убрать эти слова. У меня уже есть список слов из этого набора данных, часть, с которой я борюсь, сравнивает с этим списком и удаляет …

110 python nltk stop-words

7

как проверить, какая версия nltk, scikit learn установлена?

В сценарии оболочки я проверяю, установлены ли эти пакеты или нет, если они не установлены, установите их. Итак, в сценарии оболочки: import nltk echo nltk.__version__ но он останавливает сценарий оболочки на importстроке в терминале linux попытался увидеть таким образом: which nltk который ничего не дает думать, что он установлен. Есть …

104 python linux shell scikit-learn nltk

26

проблема с pip при установке практически любой библиотеки

Мне сложно использовать pip для установки почти всего. Я новичок в программировании, поэтому я подумал, что, возможно, я делал что-то неправильно, и отказался от easy_install, чтобы выполнить большую часть того, что мне было нужно, что в целом работает. Однако теперь я пытаюсь загрузить библиотеку nltk, и ни одна из них …

102 python pip nltk easy-install

17

Ресурс u'tokenizers / punkt / english.pickle 'не найден

Мой код: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') Сообщение об ошибке: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", …

96 python unix nltk

6

Python: tf-idf-cosine: найти сходство документа

Я следил за учебником, который был доступен в частях 1 и 2 . К сожалению, у автора не было времени на последний раздел, в котором использовалось косинусное сходство, чтобы на самом деле найти расстояние между двумя документами. Я следил за примерами в статье с помощью следующей ссылки из stackoverflow , …

93 python machine-learning nltk information-retrieval tf-idf

18

Стэнфордский парсер и NLTK

Можно ли использовать Stanford Parser в NLTK? (Я не говорю о Stanford POS.)

90 python parsing nlp nltk stanford-nlp

7

Как настроить каталог данных nltk из кода?

88 python path directory nlp nltk

4

Создание нового корпуса с NLTK

Я считал, что часто ответ на мой заголовок - пойти и прочитать документацию, но я пробежался по книге NLTK, но она не дает ответа. Я новичок в Python. У меня есть куча .txtфайлов, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпуса nltk_data. Я пробовал, PlaintextCorpusReaderно …

83 python nlp nltk corpus

Вопросы с тегом «nltk»