Вопросы с тегом «nlp»

Обработка естественного языка (NLP) - это область компьютерных наук, искусственного интеллекта и лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками. Таким образом, НЛП относится к области взаимодействия человека с компьютером. Многие проблемы в НЛП включают понимание естественного языка, то есть предоставление компьютерам возможности извлекать значение из человеческого или естественного языка, а другие связаны с созданием естественного языка.

1
Word2Vec против Sentence2Vec против Doc2Vec
Недавно я натолкнулся на термины Word2Vec , Sentence2Vec и Doc2Vec, и я был немного сбит с толку, поскольку я новичок в векторной семантике. Может кто-нибудь, пожалуйста, изложите различия в этих методах простыми словами. Каковы наиболее подходящие задачи для каждого метода?

5
Лучший практический алгоритм для сходства предложений
У меня есть два предложения, S1 и S2, оба из которых имеют количество слов (обычно) ниже 15. Каковы наиболее практичные и успешные (машинное обучение) алгоритмы, которые, возможно, легко реализовать (нейронная сеть в порядке, если архитектура не такая сложная, как Google Inception и т. Д.). Я ищу алгоритм, который будет работать …

1
НЛП - почему «не» стоп-слово?
Я пытаюсь удалить стоп-слова перед выполнением моделирования темы. Я заметил, что некоторые слова отрицания (ни, ни, никогда, ни и т.д. ...) обычно считаются стоп-словами. Например, NLTK, spacy и sklearn включают «not» в свои списки стоп-слов. Однако, если мы уберем «не» из этих предложений ниже, они потеряют значимое значение, и это …

4
Повышение скорости реализации t-sne в python для больших данных
Я хотел бы уменьшить размерность почти на 1 миллион векторов с 200 измерениями ( doc2vec). Я использую TSNEреализацию из sklearn.manifoldмодуля, и главная проблема - временная сложность. Даже при том method = barnes_hut, что скорость вычислений все еще низка. Некоторое время даже не хватает памяти. Я использую его на 48-ядерном процессоре …

2
НЛП - Gazetteer обмануть?
В НЛП есть понятие, Gazetteerкоторое может быть весьма полезным для создания аннотаций. Насколько я понимаю: Газетир состоит из набора списков, содержащих имена объектов, таких как города, организации, дни недели и т. Д. Эти списки используются для поиска вхождений этих имен в тексте, например, для задачи распознавания именованных объектов. Так что …

2
Извлечение наиболее информативных частей текста из документов
Есть ли какие-либо статьи или дискуссии по поводу извлечения части текста, которая содержит большую часть информации о текущем документе. Например, у меня большой корпус документов из того же домена. Есть части текста, которые содержат ключевую информацию, о которой говорит отдельный документ. Я хочу извлечь некоторые из этих частей и использовать …
16 nlp  text-mining 

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
В чем разница между RNN, основанными на словах и символах?
Читая о генерации текста с помощью Recurrent Neural Networks, я заметил, что некоторые примеры были реализованы для генерации текста слово за словом, а другие - символ за символом, без указания причины. Итак, в чем разница между моделями RNN, которые предсказывают текст на основе слова, и моделями, которые предсказывают текст на …

4
Сходство между двумя словами
Я ищу библиотеку Python, которая помогает мне определить сходство между двумя словами или предложениями. Я буду выполнять преобразование аудио в текст, что приведет к появлению английского словаря или словарных слов (это может быть имя человека или компании). После этого мне нужно сравнить его с известным словом или словами. Пример: 1) …
15 nlp  nltk 

5
Предсказание сходства предложений
Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox" Прогноз на основе набора данных: …

4
Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?
Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь я только что выяснил, что в gesim есть функция, которая …

2
Какие особенности обычно используются из деревьев разбора в процессе классификации в НЛП?
Я изучаю различные типы структур дерева разбора. Двумя широко известными структурами дерева разбора являются: а) дерево разбора на основе постоянных и б) основанные на зависимости структуры дерева разбора. Я могу использовать генерацию обоих типов структур дерева разбора с помощью пакета Stanford NLP. Однако я не уверен, как использовать эти древовидные …

1
Что такое 1D сверточный слой в глубоком обучении?
У меня есть хорошее общее представление о роли и механизме сверточных слоев в Deep Learning для обработки изображений в случае реализации 2D или 3D - они «просто» пытаются поймать 2D-шаблоны в изображениях (в 3 каналах в случае 3D). Но недавно я столкнулся с одномерными сверточными слоями в контексте обработки естественного …

3
Запрос Natural Language to SQL
Я работал над разработкой системы «Преобразование естественного языка в SQL-запрос». Я прочитал ответы на подобные вопросы, но не смог получить информацию, которую искал. Ниже приведена блок-схема для такой системы, которую я получил от алгоритма преобразования естественного языка в запросы SQL для реляционных баз данных Гаримы Сингха, Аруна Соланки Я понял …

1
Так в чем же подвох с LSTM?
Я расширяю свои знания о пакете Keras и работаю с некоторыми из доступных моделей. У меня есть проблема двоичной классификации НЛП, которую я пытаюсь решить, и я применяю разные модели. Поработав с некоторыми результатами и прочитав все больше и больше о LSTM, кажется, что этот подход намного превосходит все, что …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.