Вопросы с тегом «nlp»

Обработка естественного языка (NLP) - это область компьютерных наук, искусственного интеллекта и лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками. Таким образом, НЛП относится к области взаимодействия человека с компьютером. Многие проблемы в НЛП включают понимание естественного языка, то есть предоставление компьютерам возможности извлекать значение из человеческого или естественного языка, а другие связаны с созданием естественного языка.

4
Скрытое распределение Дирихле против иерархического процесса Дирихле
Скрытое выделение Дирихле (LDA) и иерархический процесс Дирихле (HDP) являются темами процессов моделирования. Основное различие заключается в том, что LDA требует уточнения количества тем, а HDP - нет. Почему это так? И каковы различия, плюсы и минусы обоих тематических методов моделирования?
49 nlp  topic-model  lda 

5
Каковы некоторые стандартные способы вычисления расстояния между документами?
Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к последним.

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Какие алгоритмы я должен использовать для выполнения классификации работы на основе данных резюме?
Обратите внимание, что я делаю все в R. Проблема заключается в следующем: В основном, у меня есть список резюме (резюме). Некоторые кандидаты будут иметь опыт работы раньше, а некоторые нет. Цель здесь состоит в том, чтобы: основываясь на тексте их резюме, я хочу классифицировать их по различным секторам работы. Я …


4
Word2Vec для распознавания именованных объектов
Я собираюсь использовать реализацию word2vec от Google для создания системы распознавания именованных сущностей. Я слышал, что рекурсивные нейронные сети с обратным распространением через структуру хорошо подходят для задач распознавания именованных сущностей, но я не смог найти достойную реализацию или подходящее руководство для этого типа модели. Поскольку я работаю с нетипичным …

3
Почему сообщества НЛП и машинного обучения заинтересованы в глубоком обучении?
Я надеюсь, что вы можете мне помочь, так как у меня есть несколько вопросов на эту тему. Я новичок в области глубокого обучения, и хотя я сделал несколько уроков, я не могу связать или отличить понятия друг от друга.

3
Что такое позиционное кодирование в модели трансформатора?
Я новичок в ML, и это мой первый вопрос здесь, так что извините, если мой вопрос глупый. Я пытаюсь прочитать и понять статью. Внимание - это все, что вам нужно, и в нем есть картинка: Я не знаю, что такое позиционное кодирование . Слушая некоторые видеоролики на YouTube, я обнаружил, …

3
Что является лучшим входом для Word2Vec?
Это больше похоже на общий вопрос НЛП. Что является подходящим входом для обучения встраивания слова, а именно Word2Vec? Должны ли все предложения, принадлежащие статье, быть отдельным документом в корпусе? Или каждая статья должна быть документом в указанном корпусе? Это просто пример использования Python и Gensim. Корпус разделить по предложению: SentenceCorpus …

3
Как загрузить предварительно подготовленную модель FastText с помощью Gensim?
Я попытался загрузить предварительно обученную модель fastText отсюда модель Fasttext . Я использую wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Но он показывает следующие ошибки Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), …
21 nlp  gensim 

2
Предсказание слова с использованием модели Word2vec
Принимая во внимание предложение: «Когда я открываю ?? дверь он начинает нагрев автоматически» Я хотел бы получить список возможных слов в ?? с вероятностью. Основная концепция, используемая в модели word2vec, заключается в том, чтобы «предсказать» слово в заданном окружающем контексте. Как только модель построена, какова правильная операция векторов контекста, чтобы …

4
Как я могу получить меру семантического сходства слов?
Каков наилучший способ выяснить семантическое сходство слов? Word2Vec хорошо, но не идеально: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' …

3
Как вырастить список связанных слов на основе начальных ключевых слов?
Недавно я увидел интересную функцию, которая когда- то была доступна в Google Sheets: вы начинаете с написания нескольких связанных ключевых слов в последовательных ячейках, скажем: «синий», «зеленый», «желтый», и автоматически генерирует похожие ключевые слова (в данном случае другие цвета). Смотрите больше примеров в этом видео на YouTube . Я хотел …

3
Набор данных для распознавания именованных объектов в неформальном тексте
В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более «неформальны», чем новостная статья и записи в …
18 dataset  nlp 

4
Как аннотировать текстовые документы с метаданными?
Имея много текстовых документов (на естественном языке, неструктурированных), каковы возможные способы аннотирования их некоторыми семантическими метаданными? Например, рассмотрим короткий документ: I saw the company's manager last day. Чтобы иметь возможность извлекать информацию из нее, она должна быть снабжена дополнительными данными, чтобы быть менее двусмысленной. Процесс поиска таких метаданных не ставится …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.