Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

1
порог расчета для минимального классификатора риска?
Предположим, что два класса и имеют атрибут и имеют распределение и . если мы имеем равный для следующей матрицы затрат:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5 \\ 1 & 0 \end{bmatrix} почему x0&lt;0.5x0&lt;0.5x_0 < 0.5 является порогом для классификатора минимального риска (стоимости)? Это мой пример …

1
Когда использовать примеси Джини, а когда использовать получение информации?
Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать какие?

3
Доверительный интервал для перекрестной проверки точности классификации
Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут к снижению показателя. Я использовал стратифицированную 10-кратную перекрестную проверку для вычисления вероятности ошибочной классификации. Мой текущий …

1
Усреднение точности и отзыв при использовании перекрестной проверки
Я выполнил классификацию с использованием нескольких классификаторов для данных, помеченных для двух классов, и использовал пятикратную перекрестную проверку. Для каждого сгиба я вычислял tp, tn, fp и fn. Затем я рассчитал точность, точность, отзыв и F-показатель для каждого теста. Мой вопрос заключается в том, что, когда я хочу усреднить результаты, …

2
Классификация временных рядов - очень плохие результаты
Я работаю над проблемой классификации временных рядов, когда вводом являются данные об использовании голоса во временных рядах (в секундах) за первые 21 день использования учетной записи мобильного телефона. Соответствующей целевой переменной является ли эта учетная запись отменена в диапазоне 35-45 дней. Так что это проблема бинарной классификации. Я получаю очень …

2
Сравнить классификаторы на основе AUROC или точности?
У меня есть проблема двоичной классификации, и я экспериментирую с различными классификаторами: я хочу сравнить классификаторы. какой из них лучше измерить AUC или точность? И почему? Raondom Forest: AUC: 0.828 Accuracy: 79.6667 % SVM: AUC: 0.542 Accuracy: 85.6667 %

3
Важность переменных в логистической регрессии
Я, вероятно, имею дело с проблемой, которая, вероятно, была решена сто раз прежде, но я не уверен, где найти ответ. При использовании логистической регрессии, учитывая многие функции и пытаясь предсказать двоичное категориальное значение y , я заинтересован в выборе подмножества признаков, которые хорошо предсказывают y .x1,...,xnx1,...,xnx_1,...,x_nyyyyyy Есть ли процедура, похожая …

2
Меры разделимости классов в задачах классификации
Примером хорошей меры отделимости классов у учащихся с линейным дискриминантом является коэффициент линейного дискриминанта Фишера. Существуют ли другие полезные метрики, чтобы определить, обеспечивают ли наборы функций хорошее разделение классов между целевыми переменными? В частности, я заинтересован в поиске хороших многомерных входных атрибутов для максимального разделения целевых классов, и было бы …

2
Использование Adaboost с SVM для классификации
Я знаю, что Adaboost пытается создать сильный классификатор, используя линейную комбинацию набора слабых классификаторов. Тем не менее, я читал некоторые статьи, в которых говорится, что Adaboost и SVM работают в гармонии (хотя SVM является сильным классификатором) в определенных условиях и случаях . Я не могу понять с точки зрения архитектуры …

4
Можно ли получить лучший ANN, удалив некоторые соединения?
Мне было интересно, могут ли при некоторых обстоятельствах ANN работать лучше, если вы удалите некоторые соединения на них, например: Построение одной сети ANN путем параллельного подключения двух многослойных сетей ANN A и B (одинаковые входные и выходные узлы) с добавлением нескольких «коммуникационных» соединений между скрытыми слоями A и B? Можно …

1
Распространение 2-классовых моделей на мультиклассовые задачи
В этой статье об Adaboost приведены некоторые предложения и код (стр. 17) для расширения моделей с 2 ​​классами до задач класса K. Я хотел бы обобщить этот код так, чтобы я мог легко подключить различные 2-классовые модели и сравнить результаты. Поскольку большинство моделей классификации имеют интерфейс формулы и predictметод, некоторые …

3
Модель классификации для прогнозирования рейтинга фильмов
Я немного новичок в области интеллектуального анализа данных и работаю над моделью классификации для прогнозирования рейтинга фильмов. Я собрал наборы данных из IMDB, и я планирую использовать деревья решений и подходы ближайшего соседа для моей модели. Я хотел бы знать, какой свободно доступный инструмент интеллектуального анализа данных может предоставить мне …

2
Организация дерева классификации (в rpart) в набор правил?
Существует ли способ построения сложного дерева классификации с использованием rpart (в R) для организации правил принятия решений, создаваемых для каждого класса? Таким образом, вместо того, чтобы получить одно огромное дерево, мы получаем набор правил для каждого из классов? (если так, то как?) Вот простой пример кода для демонстрации примеров: fit …
11 r  classification  cart  rpart 

3
Существуют ли какие-либо библиотеки для CART-подобных методов, использующих разреженные предикторы и ответы?
Я работаю с некоторыми большими наборами данных, используя пакет gbm в R. И моя матрица предикторов, и мой вектор ответов довольно редки (то есть большинство записей равно нулю). Я надеялся построить деревья решений, используя алгоритм, который использует преимущества этой редкости, как это было сделано здесь ). В этой статье, как …

1
Сокращение количества уровней неупорядоченной категориальной предикторной переменной
Я хочу обучить классификатор, скажем SVM, или случайный лес, или любой другой классификатор. Одной из функций в наборе данных является категориальная переменная с 1000 уровнями. Каков наилучший способ уменьшить количество уровней в этой переменной. В R есть функция, называемая combine.levels()в пакете Hmisc , которая объединяет нечастые уровни, но я искал …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.