Вопросы с тегом «text-mining»

Относится к подмножеству интеллектуального анализа данных, связанному с извлечением информации из данных в форме текста путем распознавания шаблонов. Цель интеллектуального анализа текста часто состоит в том, чтобы автоматически классифицировать данный документ в одну из нескольких категорий и динамически улучшать эту производительность, что делает его примером машинного обучения. Одним из примеров такого типа интеллектуального анализа текста являются спам-фильтры, используемые для электронной почты.

2
Как рассчитать растерянность несогласных с латентным распределением Дирихле?
Я запутался в том, как рассчитать растерянность несдерживаемой пробы при выполнении скрытого распределения дирихле (LDA). Бумаги на эту тему очень легки, заставляя меня думать, что я упускаю что-то очевидное ... Недоумение считается хорошим показателем производительности для LDA. Идея состоит в том, что вы сохраняете выборку несогласных, обучаете свой LDA остальным …

5
Масштабная классификация текста
Я хочу сделать классификацию на мои текстовые данные. У меня есть 300 classes200 учебных документов на класс (так 60000 documents in total), и это, вероятно, приведет к очень большим размерам данных (возможно, мы просматриваем более 1 миллиона измерений ). Я хотел бы выполнить следующие шаги в конвейере (просто чтобы дать …

2
Почему классификатор регрессии гребня работает достаточно хорошо для классификации текста?
Во время эксперимента по классификации текста я обнаружил, что классификатор гребней генерирует результаты, которые постоянно превосходят тесты среди тех классификаторов, которые чаще упоминаются и применяются для задач интеллектуального анализа текста, таких как SVM, NB, kNN и т. Д. Хотя я не разработал по оптимизации каждого классификатора для этой конкретной задачи …

1
Я хочу построить индекс преступности и индекс политической нестабильности, основанный на новостях
У меня есть этот побочный проект, где я сканирую местные новостные сайты в моей стране и хочу создать индекс преступности и индекс политической нестабильности. Я уже освещал информационно-поисковую часть проекта. Мой план состоит в том, чтобы сделать: Неконтролируемая тема извлечения. Обнаружение близких дубликатов. Контролируемая классификация и уровень инцидента (преступность / …

1
Входные параметры для использования скрытого распределения Дирихле
При использовании тематического моделирования (скрытое распределение Дирихле) количество тем является входным параметром, который необходимо указать пользователю. Мне кажется, что мы также должны предоставить набор кандидатских тем, по которым процесс Dirichlet должен сэмплировать? Правильно ли мое понимание? На практике, как настроить этот набор кандидатов?

1
Предсказание темы с использованием скрытого распределения Дирихле
Я использовал LDA на корпусе документов и нашел несколько тем. Вывод моего кода - две матрицы, содержащие вероятности; вероятности для одной темы и вероятность для другой темы. Но я на самом деле не знаю, как использовать эти результаты, чтобы предсказать тему нового документа. Я использую выборку Гиббса. Кто-нибудь знает как? …

2
Когда мы объединяем уменьшение размерности с кластеризацией?
Я пытаюсь выполнить кластеризацию на уровне документов. Я построил матрицу частот термина-документа, и я пытаюсь кластеризовать эти высокоразмерные векторы с помощью k-средних. Вместо непосредственной кластеризации я сначала применил разложение сингулярных векторов LSA (скрытый семантический анализ) для получения матриц U, S, Vt, выбрал подходящий порог с использованием графика осей и применил …

2
Что такое хороший метод для кластеризации коротких текстов?
Я работаю над проблемой кластеризации текста. Данные содержат несколько предложений. Есть хороший алгоритм, который достигает высокой точности на коротком тексте? Можете ли вы предоставить хорошие ссылки? Алгоритмы, такие как KMeans, спектральная кластеризация не работают хорошо для этой проблемы.

4
Text Mining: как кластеризовать тексты (например, новостные статьи) с помощью искусственного интеллекта?
Я построил некоторые нейронные сети (MLP (полностью подключенные), Elman (рекуррентные)) для различных задач, таких как игра в понг, классификация рукописных цифр и прочее ... Кроме того, я попытался создать несколько первых сверточных нейронных сетей, например, для классификации многозначных рукописных заметок, но я совершенно новичок в анализе и кластеризации текстов, например, …

3
Каковы различия между скрытым семантическим анализом (LSA), скрытой семантической индексацией (LSI) и разложением по сингулярным значениям (SVD)?
Эти термины часто встречаются вместе, но я хотел бы знать, как вы думаете, в чем различия, если таковые имеются. Благодарность
15 pca  text-mining  svd 

5
Как сделать одноклассную классификацию текста?
Мне приходится иметь дело с проблемой классификации текста. Сканер сканирует веб-страницы определенного домена, и для каждой веб-страницы я хочу выяснить, принадлежит ли он только одному конкретному классу или нет. То есть, если я назову этот класс " Позитивным" , каждая просканированная веб-страница принадлежит либо к классу " Позитив", либо к …

3
Тематические модели для коротких документов
Вдохновленный этим вопросом , мне интересно, была ли проделана какая-либо работа над тематическими моделями для больших коллекций чрезвычайно коротких текстов. Моя интуиция заключается в том, что Twitter должен быть естественным источником вдохновения для таких моделей. Однако, из-за некоторых ограниченных экспериментов, похоже, что стандартные тематические модели (LDA и т. Д.) Довольно …

2
Примеры интеллектуального анализа текста с помощью R (пакет tm)
Я потратил три дня на то, чтобы поболтать с tmчитателем черновика статьи от друга, где он исследовал текстовый корпус с помощью UCINET, показывая текстовые облака, двухрежимные сетевые графики и разложение по одному значению (с графикой, используя Stata). Я столкнулся с большим количеством проблем: в Mac OS X есть проблемы с …
14 r  text-mining 

2
При чем n-граммы становятся контрпродуктивными?
При обработке на естественном языке можно взять корпус и оценить вероятность появления следующего слова в последовательности из n. n обычно выбирается как 2 или 3 (биграммы и триграммы). Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая количество времени, которое требуется для классификации конкретного корпуса …

1
Автоматическое извлечение ключевых слов: использование косинусных сходств в качестве функций
У меня есть матрица термина документа , и теперь я хотел бы извлечь ключевые слова для каждого документа с помощью контролируемого метода обучения (SVM, Naive Bayes, ...). В этой модели я уже использую Tf-idf, тег Pos, ...MMM Но теперь я задаюсь вопросом о nexts. У меня есть матрица с косинусом …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.