Вопросы с тегом «unbalanced-classes»

Данные, организованные в отдельные категории или * классы *, могут представлять проблемы для определенных анализов, если количество наблюдений ( ), принадлежащих каждому классу, не является постоянным для разных классов. Классы с неравным являются * несбалансированными *. nn

3
Имеет ли значение несбалансированный образец при выполнении логистической регрессии?
Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов я использую, классификации никогда не становятся лучше, чем …

5
Когда несбалансированные данные действительно являются проблемой в машинном обучении?
У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо общих рекомендаций по работе с …

6
Бинарная классификация с сильно несбалансированными классами
У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что …

4
Классовый дисбаланс в контролируемом машинном обучении
Это вопрос в целом, не относящийся к какому-либо методу или набору данных. Как мы решаем проблему дисбаланса классов в обучении с использованием контролируемой машины, где число 0 составляет около 90%, а число 1 составляет около 10% в вашем наборе данных. Как оптимально обучить классификатор. Одним из способов, которым я следую, …

4
Обучение дерева решений против несбалансированных данных
Я новичок в области интеллектуального анализа данных и пытаюсь настроить дерево решений на основе набора данных, который сильно разбалансирован. Однако у меня проблемы с плохой точностью прогнозирования. Данные состоят из студентов, изучающих курсы, а переменная класса - это статус курса, который имеет два значения - отозванный или текущий. Возраст Этнос …

1
Меняет ли понижающая выборка коэффициенты логистической регрессии?
Если у меня есть набор данных с очень редким положительным классом, и я понижаю выборку отрицательного класса, а затем выполняю логистическую регрессию, нужно ли мне корректировать коэффициенты регрессии, чтобы отразить тот факт, что я изменил распространенность положительного класса? Например, допустим, у меня есть набор данных с 4 переменными: Y, A, …

3
В чем причина проблемы дисбаланса классов?
В последнее время я много размышлял о «проблеме дисбаланса классов» в машинном / статистическом обучении и все глубже погружаюсь в ощущение, что я просто не понимаю, что происходит. Сначала позвольте мне определить (или попытаться) определить мои термины: Проблема дисбаланса классов в машинном / статистическом обучении заключается в том, что некоторые …

4
Оптимизация для кривых Precision-Recall при дисбалансе класса
У меня есть задача классификации, где у меня есть несколько предикторов (один из которых является наиболее информативным), и я использую модель MARS для построения моего классификатора (меня интересует любая простая модель, и использование glms для иллюстративных целей будет тоже хорошо). Теперь у меня огромный дисбаланс классов в данных обучения (около …

4
Когда я должен сбалансировать классы в наборе данных обучения?
У меня был онлайн-курс, где я узнал, что несбалансированные классы в данных обучения могут привести к проблемам, потому что алгоритмы классификации идут по правилу большинства, поскольку это дает хорошие результаты, если дисбаланс слишком велик. При выполнении задания необходимо было сбалансировать данные с помощью заниженной выборки для большинства классов. Однако в …

6
Размер выборки для логистической регрессии?
Я хочу сделать логистическую модель из моих данных опроса. Это небольшой опрос четырех жилых колоний, в котором было опрошено только 154 респондента. Моя зависимая переменная - «удовлетворительный переход к работе». Я обнаружил, что из 154 респондентов 73 сказали, что они успешно перешли на работу, а остальные нет. Таким образом, зависимая …

4
Как правильно использовать scale_pos_weight в xgboost для несбалансированных наборов данных?
У меня очень несбалансированный набор данных. Я пытаюсь следовать советам по настройке и использовать, scale_pos_weightно не знаю, как мне его настроить. Я вижу, что RegLossObj.GetGradientделает: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight таким образом, градиент положительного образца будет более влиятельным. Однако, согласно статье xgboost , статистика градиента всегда используется локально …

4
Какую проблему решают передискретизация, недостаточная выборка и SMOTE?
В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема несбалансированных классов . Идея состоит в том, что наборы данных с дисбалансом между положительным …

2
Как справиться с разницей между распределением тестового набора и обучающего набора?
Я думаю, что одно из основных предположений о машинном обучении или оценке параметров заключается в том, что невидимые данные поступают из того же распределения, что и обучающий набор. Однако в некоторых практических случаях распределение тестового набора будет практически отличаться от учебного набора. Скажем, для крупномасштабной задачи мульти-классификации, которая пытается классифицировать …

3
Классификационные / оценочные показатели для сильно несбалансированных данных
Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных метрик классификации. Precision and Recallили kappaоба кажутся хорошим выбором: Один из способов оправдать результаты таких классификаторов - это сравнить их с результатами базовых классификаторов …

5
Выборка для несбалансированных данных в регрессии
Были хорошие вопросы об обработке несбалансированных данных в контексте классификации , но мне интересно, что люди делают, чтобы выбрать регрессию. Скажем, проблемный домен очень чувствителен к знаку, но лишь несколько чувствителен к величине цели. Однако величина достаточно важна, чтобы модель представляла собой регрессию (непрерывная цель), а не классификацию (положительные и …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.