Вопросы с тегом «unbalanced-classes»

Данные, организованные в отдельные категории или * классы *, могут представлять проблемы для определенных анализов, если количество наблюдений ( ), принадлежащих каждому классу, не является постоянным для разных классов. Классы с неравным являются * несбалансированными *. nn

2
Добавление весов к логистической регрессии для несбалансированных данных
Я хочу смоделировать логистическую регрессию с несбалансированными данными (9: 1). Я хотел попробовать опцию весов в glmфункции в R, но я не уверен на 100%, что она делает. Допустим , моя переменная выход c(0,0,0,0,0,0,0,0,0,1). Теперь я хочу дать «1» в 10 раз больше веса. поэтому я даю весовой аргумент weights=c(1,1,1,1,1,1,1,1,1,1,1,10). …

2
Порядок переменных в ANOVA имеет значение, не так ли?
Правильно ли я понимаю, что порядок, в котором переменные указываются в многофакторном ANOVA, имеет значение, но что порядок не имеет значения при выполнении множественной линейной регрессии? Таким образом, предполагая такой результат, как измеренная кровопотеря y и две категориальные переменные метод аденоидэктомии a , метод тонзиллэктомии b . Модель y~a+bотличается от …

2
Классификация тестирования данных с избыточным дискретизацией
Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода: SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE ) ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения ( ADASYN ) Я реализовал ADASYN, потому что …

3
ROC против точных кривых отзыва на несбалансированном наборе данных
Я только что закончил читать эту дискуссию. Они утверждают, что PR AUC лучше, чем ROC AUC по несбалансированному набору данных. Например, у нас есть 10 образцов в тестовом наборе данных. 9 образцов положительные и 1 отрицательный. У нас ужасная модель, которая предсказывает все положительное. Таким образом, у нас будет метрика: …

2
Страдает ли классификация GBM несбалансированными размерами классов?
Я имею дело с контролируемой проблемой бинарной классификации. Я хотел бы использовать пакет GBM для классификации людей как незараженных / зараженных. У меня в 15 раз больше незараженных, чем у инфицированных. Мне было интересно, страдают ли модели GBM в случае несбалансированных размеров классов? Я не нашел никаких ссылок на этот …

3
Предложения по обучению с учетом затрат в крайне несбалансированной среде
У меня есть набор данных с несколькими миллионами строк и ~ 100 столбцов. Я хотел бы обнаружить около 1% примеров в наборе данных, которые относятся к общему классу. У меня есть ограничение минимальной точности, но из-за очень асимметричной стоимости я не слишком заинтересован в каком-либо конкретном отзыве (пока у меня …

3
SVM для несбалансированных данных
Я хочу попытаться использовать машины опорных векторов (SVM) в моем наборе данных. Перед тем, как попытаться решить проблему, меня предупредили, что SVM плохо работают с крайне несбалансированными данными. В моем случае у меня может быть 95-98% 0 и 2-5% 1. Я пытался найти ресурсы, в которых говорилось об использовании SVM …


2
Поддерживает ли машина опорных векторов несбалансированный набор данных?
SVM обрабатывает несбалансированный набор данных? Это какие-либо параметры (например, C или стоимость неправильной классификации), обрабатывающие несбалансированный набор данных?

1
Когда несбалансированные классы с избыточной / недостаточной выборкой, отличается ли максимальная точность от минимизации затрат на неправильную классификацию?
Прежде всего, я хотел бы описать некоторые распространенные макеты, которые используются в книгах Data Mining, и объяснить, как работать с несбалансированными наборами данных . Обычно основной раздел называется несбалансированными наборами данных, и они охватывают эти два подраздела: чувствительная к затратам классификация и методы выборки. Кажется, что, столкнувшись с проблемой редкого …

1
Подходит ли повышение градиента для данных с низкой частотой событий, таких как 1%?
Я пытаюсь повысить градиент для набора данных с частотой событий около 1%, используя Enterprise miner, но он не дает никакого вывода. Мой вопрос таков: поскольку это подход, основанный на дереве решений, правильно ли использовать градиентное усиление при таком низком событии?

2
Почему отсечение P> 0,5 не является «оптимальным» для логистической регрессии?
ПРЕДИСЛОВИЕ: Меня не волнуют преимущества использования отсечки или нет, или как выбрать отсечение. Мой вопрос чисто математический и из любопытства. Логистическая регрессия моделирует апостериорную условную вероятность класса A по сравнению с классом B, и она соответствует гиперплоскости, где апостериорные условные вероятности равны. Таким образом, в теории я понял, что точка …

1
Как уменьшить количество ложных срабатываний?
Я пытаюсь решить задачу, которая называется « Обнаружение пешеходов», и я тренирую двоичный класс по двум категориям: позитивные - люди, негативные - фон. У меня есть набор данных: количество позитивов = 3752 число отрицательных = 3800 Я использую train \ test split 80 \ 20% и форму scikit-learn RandomForestClassifier с …

1
Создание несбалансированного набора данных
Я хотел бы проверить мою обученную модель на несбалансированном наборе данных. Есть ли какие-либо алгоритмы для генерации синтетических данных из сбалансированного помеченного набора данных (спам / не спам)?

3
Какую функцию потерь следует использовать для получения двоичного классификатора с высокой точностью или высокой степенью отзыва?
Я пытаюсь сделать детектор объектов, которые встречаются очень редко (в изображениях), планируя использовать двоичный классификатор CNN, применяемый в скользящем окне с измененным размером. Я построил сбалансированные положительно-отрицательные обучающие и тестовые наборы (кстати, правильно ли это делать в таком случае?), И классификатор отлично справляется с тестовым набором с точки зрения точности. …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.