Вопросы с тегом «classification»

Экземпляр контролируемого обучения, который определяет категорию или категории, к которым принадлежит новый экземпляр набора данных.

5
Объединение разреженных и плотных данных в машинном обучении для повышения производительности
У меня есть редкие признаки, которые являются прогнозирующими, также у меня есть некоторые плотные признаки, которые также являются прогнозирующими. Мне нужно объединить эти функции вместе, чтобы улучшить общую производительность классификатора. Дело в том, что когда я пытаюсь объединить их вместе, плотные функции имеют тенденцию доминировать в большей степени, чем разреженные, …

2
Как повысить точность классификаторов?
Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000 экземплярами и 16 функциями, которые я разделил пополам для обучения и тестирования. …

3
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?
Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых последовательностей («Неизвестный / плохо аннотированный фон») или около 100 000 проверенных релевантных белков, аннотированных различными свойствами (но очень …

6
В чем причина лог-преобразования нескольких непрерывных переменных?
Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.logили logнепрерывные переменные, такие как loan_amountили applicant_incomeт. Я просто хочу понять причину этого. Помогает ли это улучшить точность прогнозирования нашей модели? Это обязательно? или есть какая-то …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
Дерево решений или логистическая регрессия?
Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией? Правильно ли предположить, что логистическая регрессия будет более подходящей для непрерывной переменной, а дерево решений будет более подходящим для непрерывной …

2
Использование атрибутов для классификации / кластеризации пользовательских профилей
У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта. Цель состоит в том, чтобы использовать информацию о продукте и веб-сайте, чтобы идентифицировать пользователей, таких …

2
Модель двоичной классификации для несбалансированных данных
У меня есть набор данных со следующими спецификациями: Учебный набор данных с 193 176 пробами с 2821 положительным результатом Тестовый набор данных с 82 887 образцами с 673 положительными Есть 10 функций. Я хочу выполнить двоичную классификацию (0 или 1). Проблема, с которой я сталкиваюсь, заключается в том, что данные …

1
Как выбрать точку разделения для непрерывных переменных в деревьях решений?
У меня есть два вопроса, связанных с деревьями решений: Если у нас есть непрерывный атрибут, как мы выбираем значение разделения? Пример: возраст = (20,29,50,40 ....) Представьте себе , что мы имеем непрерывный атрибут , которые имеют значение в . Как я могу написать алгоритм, который находит точку разделения , чтобы …

1
Как обработать нулевой фактор в расчете наивного байесовского классификатора?
Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то все произведение …

1
В чем разница между генерацией и извлечением объектов?
Кто-нибудь может сказать мне, какова цель создания функции? и зачем обогащать пространство признаков перед классификацией изображения? Это необходимый шаг? Есть ли способ обогатить пространство функций?

3
Лучший способ классифицировать наборы данных со смешанными типами атрибутов
Я хотел бы знать, каков наилучший способ классификации набора данных, состоящего из смешанных типов атрибутов, например, текстовых и числовых. Я знаю, что могу преобразовать текст в булеву, но словарь разнообразен и данные становятся слишком редкими. Я также пытался классифицировать типы атрибутов отдельно и объединять результаты с помощью методов метаобучения, но …

2
почему мы должны справиться с дисбалансом данных?
Мне нужно знать, почему мы должны бороться с дисбалансом данных. Я знаю, как с этим справляться, и различными методами для решения проблемы, которая заключается в повышении или понижении или использовании Smote. Например, если у меня редкое заболевание 1% из 100, и, скажем, я решил иметь сбалансированный набор данных для моего …

3
Как использовать RBM для классификации?
В данный момент я играю с Restricted Boltzmann Machines, и, поскольку я в нем, я хотел бы попытаться классифицировать рукописные цифры по ним. Модель, которую я создал, теперь является довольно модной генеративной моделью, но я не знаю, как дальше с ней работать. В этой статье автор говорит, что после создания …

1
Классификация клиентов на основе 2 функций и временных рядов событий
Мне нужна помощь в том, что должно быть моим следующим шагом в алгоритме, который я разрабатываю. Из-за NDA я не могу раскрыть многое, но постараюсь быть обобщенным и понятным. В основном, после нескольких шагов в алгоритмах, у меня есть это: Для каждого имеющегося у меня клиента и событий, которые он …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.