Вопросы с тегом «natural-language»

Обработка естественного языка - это набор методов из лингвистики, искусственного интеллекта, машинного обучения и статистики, которые направлены на обработку и понимание человеческих языков.

2
Как рассчитывается метод сходства в SpaCy?
Не уверен, что это правильный сайт стека, но здесь идет. Как работает метод .similiarity? Wow spaCy это здорово! Его модель tfidf может быть проще, но w2v только с одной строкой кода ?! В своем 10-строчном уроке по spaCy andrazhribernik показывает нам метод сходства, который можно использовать для токенов, отправлений, кусков …

3
Почему иерархический софтмакс лучше для нечастых слов, а отрицательная выборка лучше для частых слов?
Интересно, почему иерархический софтмакс лучше подходит для нечастых слов, а отрицательная выборка лучше для частых слов в моделях CBOW и skip-грамм word2vec. Я прочитал претензию на https://code.google.com/p/word2vec/ .

2
Захват начальных образцов при использовании усеченного обратного распространения по времени (RNN / LSTM)
Скажем, я использую RNN / LSTM для анализа настроений, который является подходом «многие к одному» (см. Этот блог ). Сеть обучается по усеченному обратному распространению по времени (BPTT), где сеть разворачивается всего за 30 последних шагов, как обычно. В моем случае каждый из моих текстовых разделов, которые я хочу классифицировать, …

2
Почему n-грамм используется в идентификации текста вместо слов?
В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки пакета слов и n-грамм? Кроме того, каковы …

2
Как применять нейронные сети в задачах классификации по нескольким меткам?
Описание: Пусть проблемная область будет классификацией документов, где существует набор векторов признаков, каждый из которых принадлежит одному или нескольким классам. Например, документ doc_1может принадлежать Sportsи Englishкатегориям. Вопрос: Используя нейронную сеть для классификации, какой будет метка для вектора признаков? будет ли это вектор, составляющий все классы, так что значение 0 дается …

3
Как модель скип-граммы Word2Vec генерирует выходные векторы?
У меня проблемы с пониманием скип-грамматической модели алгоритма Word2Vec. В непрерывном пакете слов легко увидеть, как контекстные слова могут «вписаться» в нейронную сеть, поскольку вы в основном усредняете их после умножения каждого из представлений кодирования с одним горячим кодированием на входную матрицу W. Однако в случае скип-граммы вы получаете вектор …

1
Алгоритмы встраивания слов с точки зрения производительности
Я пытаюсь вставить примерно 60 миллионов фраз в векторное пространство , а затем вычислить косинусное сходство между ними. Я использовал sklearn CountVectorizerс пользовательской функцией токенизатора, которая создает униграммы и биграммы. Оказывается, чтобы получить осмысленное представление, мне нужно учесть огромное количество столбцов, линейных по количеству строк. Это приводит к невероятно редким …

1
Разъяснение максимизации ожидания
Я нашел очень полезное руководство по алгоритму EM . Пример и картинка из урока просто великолепны. Связанный вопрос о вычислении вероятностей, как работает максимизация ожидания? У меня есть еще один вопрос относительно того, как связать теорию, описанную в руководстве, с примером. На этапе E EM выбирает функцию которая нижние границы …

1
Каковы плюсы и минусы применения точечной взаимной информации на матрице словосочетания перед SVD?
Один из способов создания встраивания слов заключается в следующем ( зеркало ): Получите корпус, например: «Мне нравится летать. Мне нравится НЛП. Мне нравится глубокое обучение». Создайте матрицу словосочетания из него: Выполните SVD на ИксИксX и сохраните первые ККk столбцов U. U1 : | В| ,1:kU1:|В|,1:КU_{1:|V|,1:k} Между этапами 2 и 3 …

2
Вопрос о непрерывной сумке слов
У меня проблемы с пониманием этого предложения: Первая предложенная архитектура аналогична NNLM с прямой связью, где нелинейный скрытый слой удаляется, а проекционный слой используется для всех слов (а не только для матрицы проекции); таким образом, все слова проецируются в одну и ту же позицию (их векторы усредняются). Что такое проекционный …

2
Обработка неизвестных слов в задачах моделирования языка с использованием LSTM
Для задачи обработки естественного языка (NLP) часто используют векторы word2vec в качестве вложения для слов. Тем не менее, может быть много неизвестных слов, которые не перехвачены векторами word2vec просто потому, что эти слова не видны достаточно часто в обучающих данных (многие реализации используют минимальное количество перед добавлением слова в словарь). …

5
Как измерить дисперсию в данных частоты слов?
Как я могу определить количество дисперсии в векторе количества слов? Я ищу статистику, которая будет высокой для документа A, потому что она содержит много разных слов, которые встречаются редко, и низкой для документа B, потому что она содержит одно слово (или несколько слов), которые встречаются часто. В более общем смысле, …

1
Понимание использования логарифмов в логарифме TF-IDF
Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще. С этой точки зрения …

3
Относительно использования биграммы (N-грамма) для построения векторного элемента для текстового документа
Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или (N-грамм) для построения векторного элемента, но не совсем знаю, как это …

2
Как я могу сгруппировать строки по общим темам?
Например, я пытаюсь сгруппировать строки о программировании с другими строками о программировании, строки о физике с другими строками о физике и т. Д. По широкому кругу тем. Несмотря на вопиющий теоретический лингвистический аспект проблемы, я собираюсь сделать это с помощью программирования / программного обеспечения. Краткое изложение: Учитывая большое количество строк, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.