Вопросы с тегом «nltk»

The Natural Language Toolkit - это библиотека Python для компьютерной лингвистики.

7
Что такое «энтропия и получение информации»?
Я читаю эту книгу ( NLTK ), и это сбивает с толку. Энтропия является определяется как : Энтропия - это сумма вероятностей каждой метки, умноженная на логарифмическую вероятность той же самой метки. Как я могу применить энтропию и максимальную энтропию с точки зрения интеллектуального анализа текста? Может ли кто-нибудь дать …

15
Не удалось загрузить english.pickle с помощью nltk.data.load
При попытке загрузить punktтокенизатор ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... LookupErrorбыл поднят: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > …
144 python  jenkins  nltk 


15
н-граммов в питоне, четыре, пять, шесть граммов?
Ищу способ разбить текст на n-граммы. Обычно я бы сделал что-то вроде: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Я знаю, что nltk предлагает только биграммы и триграммы, но есть ли способ разбить мой текст на четыре …
137 python  string  nltk  n-gram 

9
Как проверить, является ли слово английским словом с помощью Python?
Я хочу проверить в программе Python, есть ли слово в английском словаре. Я считаю, что интерфейс nltk wordnet может быть подходящим вариантом, но я понятия не имею, как его использовать для такой простой задачи. def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) В будущем я, возможно, захочу проверить, …
134 python  nltk  wordnet 


11
Как избавиться от знаков препинания с помощью токенизатора NLTK?
Я только начинаю использовать NLTK и не совсем понимаю, как получить список слов из текста. Если я использую nltk.word_tokenize(), я получаю список слов и знаков препинания. Вместо этого мне нужны только слова. Как избавиться от знаков препинания? Также word_tokenizeне работает с несколькими предложениями: к последнему слову добавляются точки.
125 python  nlp  tokenize  nltk 

12
Как удалить стоп-слова с помощью nltk или python
Итак, у меня есть набор данных, из которого я хотел бы удалить стоп-слова. stopwords.words('english') Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто убрать эти слова. У меня уже есть список слов из этого набора данных, часть, с которой я борюсь, сравнивает с этим списком и удаляет …
110 python  nltk  stop-words 

7
как проверить, какая версия nltk, scikit learn установлена?
В сценарии оболочки я проверяю, установлены ли эти пакеты или нет, если они не установлены, установите их. Итак, в сценарии оболочки: import nltk echo nltk.__version__ но он останавливает сценарий оболочки на importстроке в терминале linux попытался увидеть таким образом: which nltk который ничего не дает думать, что он установлен. Есть …

26
проблема с pip при установке практически любой библиотеки
Мне сложно использовать pip для установки почти всего. Я новичок в программировании, поэтому я подумал, что, возможно, я делал что-то неправильно, и отказался от easy_install, чтобы выполнить большую часть того, что мне было нужно, что в целом работает. Однако теперь я пытаюсь загрузить библиотеку nltk, и ни одна из них …
102 python  pip  nltk  easy-install 

17
Ресурс u'tokenizers / punkt / english.pickle 'не найден
Мой код: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') Сообщение об ошибке: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", …
96 python  unix  nltk 

6
Python: tf-idf-cosine: найти сходство документа
Я следил за учебником, который был доступен в частях 1 и 2 . К сожалению, у автора не было времени на последний раздел, в котором использовалось косинусное сходство, чтобы на самом деле найти расстояние между двумя документами. Я следил за примерами в статье с помощью следующей ссылки из stackoverflow , …



4
Создание нового корпуса с NLTK
Я считал, что часто ответ на мой заголовок - пойти и прочитать документацию, но я пробежался по книге NLTK, но она не дает ответа. Я новичок в Python. У меня есть куча .txtфайлов, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпуса nltk_data. Я пробовал, PlaintextCorpusReaderно …
83 python  nlp  nltk  corpus 
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.