Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

2
Точность = 1- частота ошибок теста
Извиняюсь, если это очень очевидный вопрос, но я читал различные посты и не могу найти хорошее подтверждение. В случае классификации, точность классификатора = 1- частота ошибок теста ? Я получаю, что точность составляет , но мой вопрос, как именно связаны точность и частота ошибок тестирования. Tп+ TNп+ NTп+TNп+N\frac{TP+TN}{P+N}

2
Математика за деревьями классификации и регрессии
Может ли кто-нибудь помочь объяснить некоторые математические основы классификации в CART? Я смотрю, чтобы понять, как происходит два основных этапа. Например, я обучил классификатор CART на наборе данных и использовал тестовый набор данных, чтобы отметить его прогнозную производительность, но: Как выбрать начальный корень дерева? Почему и как формируется каждая отрасль? …

4
Проверка значимости улучшения точности
Предположим, у меня есть алгоритм, который классифицирует вещи на две категории. Я могу измерить точность алгоритма, скажем, на 1000 тестовых вещей - предположим, 80% вещей классифицированы правильно. Предположим, что я каким-то образом модифицирую алгоритм, чтобы 81% вещей были классифицированы правильно. Может ли статистика сказать мне что-нибудь о том, является ли …

4
Как интерпретировать кривую ROC?
Я применил логистическую регрессию к своим данным в SAS, и вот кривая ROC и таблица классификации. Я доволен цифрами в таблице классификации, но не совсем уверен, что показывают кривая Рока и область под ней. Любое объяснение будет с благодарностью.

3
Какими должны быть оптимальные параметры для классификатора Random Forest?
В настоящее время я использую набор инструментов RF на MATLAB для двоичной классификации. Набор данных: 50000 образцов и более 250 функций Так, каково должно быть количество деревьев и случайным образом выбранная особенность на каждом разделении, чтобы вырастить деревья? Может ли какой-либо другой параметр сильно повлиять на результаты?

2
Как Наивный Байес работает с непрерывными переменными?
Насколько я понимаю (очень базовое), Наивный Байес оценивает вероятности, основываясь на частотах классов каждой функции в обучающих данных. Но как рассчитать частоту непрерывных переменных? И когда вы делаете прогноз, как он классифицирует новое наблюдение, которое может не иметь одинаковых значений любого наблюдения в обучающем наборе? Использует ли он какую-то меру …

4
Можно ли использовать среднеквадратичную ошибку для классификации?
Я знаю формулу среднеквадратичной ошибки и как ее вычислить. Когда мы говорим о регрессии, мы можем вычислить среднеквадратическую ошибку. Однако можно ли говорить о MSE для задачи классификации и как ее вычислить?

1
Сравнение двух моделей, когда кривые ROC пересекают друг друга
Одна общая мера, используемая для сравнения двух или более классификационных моделей, заключается в использовании площади под кривой ROC (AUC) в качестве способа косвенной оценки их эффективности. В этом случае модель с большим AUC обычно интерпретируется как работающая лучше, чем модель с меньшим AUC. Но, согласно Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ), …

4
Стоит ли беспокоиться о мультиколлинеарности при использовании нелинейных моделей?
Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее. Стоит ли еще беспокоиться о мультиколлинеарности? Почему? Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

3
Как модели машинного обучения (GBM, NN и т. Д.) Можно использовать для анализа выживания?
Я знаю, что традиционные статистические модели, такие как регрессия пропорциональных рисков Кокса и некоторые модели Каплана-Мейера, могут использоваться для прогнозирования дней до следующего возникновения события, скажем, провала и т. Д., Т. Е. Анализа выживания Вопросов Как можно использовать регрессионную версию моделей машинного обучения, таких как GBM, нейронные сети и т. …

1
Как тренировать LSTM слой глубокой сети
Я использую lstm и сеть прямой связи для классификации текста. Я преобразую текст в горячие векторы и подаю каждый в lstm, чтобы суммировать его как единое представление. Затем я передаю его в другую сеть. Но как мне тренировать LSTM? Я просто хочу последовательно классифицировать текст - я должен кормить его …

2
С помощью пакета каретки можно ли получить матрицы путаницы для конкретных пороговых значений?
Я получил модель логистической регрессии (через train) для бинарного ответа, и я получил логистическую матрицу спутанности через confusionMatrixв caret. Это дает мне путаницу в логистической модели, хотя я не уверен, какой порог используется для ее получения. Как получить матрицу путаницы для определенных пороговых значений, используя confusionMatrixin caret?

2
Как может работать мультиклассовый персептрон?
У меня нет математических знаний, но я понимаю, как работает простой Персептрон, и мне кажется, что я понимаю концепцию гиперплоскости (я представляю ее геометрически как плоскость в трехмерном пространстве, которая разделяет два облака точек, так же как линия разделяет облака двух точек в 2D-пространстве). Но я не понимаю, как одна …

3
СПС по многомерным текстовым данным до классификации случайных лесов?
Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров уже?

1
Воспроизведение таблицы 18.1 из «Элементы статистического обучения»
Таблица 18.1 в Элементах статистического обучения суммирует эффективность нескольких классификаторов в наборе данных 14 классов. Я сравниваю новый алгоритм с лассо и эластичной сеткой для таких задач мультиклассовой классификации. Используя glmnetверсию 1.5.3 (R 2.13.0), я не могу воспроизвести пункт 7. ( многочлен с пенизированным ) в таблице, где количество используемых …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.