Мнения о передискретизации в целом и алгоритме SMOTE в частности [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы.

Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост .

Закрыто 2 года назад .

Что вы думаете о передискретизации в классификации в целом и алгоритме SMOTE в частности? Почему бы нам не просто применить цену / штраф, чтобы скорректировать дисбаланс в данных класса и любую несбалансированную стоимость ошибок? Для моих целей точность прогноза для будущего набора экспериментальных единиц является конечной мерой.

Для справки, документ SMOTE: http://www.jair.org/papers/paper953.html

machine-learning classification oversampling

— Дейв Камминс
источник

Одна проблема с избыточной дискретизацией класса меньшинства в несбалансированном наборе данных состоит в том, что вы в конечном итоге изучите слишком много специфических примеров из нескольких примеров, и это не будет хорошо обобщать. Предполагается, что SMOTE изучает топологические свойства окрестности этих точек в классе меньшинства, так что вы с меньшей вероятностью будете надевать.

— horaceT

Это отличная тема для вопроса, но не могли бы вы сделать его более сфокусированным? "Каково твое мнение?" приглашает к бесконечному обсуждению, но мы, как правило, сосредоточиваемся на формате вопросов / ответов.

— Sycorax сообщает, что восстановит Монику

{1} дает список преимуществ и недостатков чувствительного к стоимости обучения по сравнению с выборкой:

2.2 Выборка

Избыточная выборка и недостаточная выборка могут использоваться для изменения распределения учебных данных по классам, и оба метода использовались для устранения дисбаланса классов [1, 2, 3, 6, 10, 11]. Причина, по которой изменение распределения классов учебных данных помогает обучению с сильно искаженными наборами данных, заключается в том, что оно эффективно накладывает неоднородные затраты на неправильную классификацию. Например, если кто-то изменяет распределение классов в обучающем наборе так, чтобы соотношение положительных и отрицательных примеров изменялось от 1: 1 до 2: 1, тогда фактически присваивается соотношение стоимости ошибочной классификации 2: 1. Эта эквивалентность между изменением распределения классов обучающих данных и изменением соотношения стоимости ошибочной классификации хорошо известна и была формально описана Элканом [9].

Существуют известные недостатки, связанные с использованием выборки для реализации обучения с учетом затрат. Недостатком субсэмплирования является то , что он отбрасывает потенциально полезные данные . С нашей точки зрения, основной недостаток передискретизации заключается в том, что, делая точные копии существующих примеров, это может привести к переобучению . Фактически, с избыточной выборкой для ученика довольно часто генерируется правило классификации, чтобы охватить один, реплицированный, пример. Вторым недостатком передискретизации является то, что она увеличивает количество обучающих примеров, тем самым сокращая время обучения .

2.3 Зачем использовать выборку?

Учитывая недостатки выборки, стоит спросить, почему кто-то использует его, а не алгоритм обучения, чувствительный к затратам, для работы с данными с искаженным распределением классов и неравномерной ошибочной классификацией. На это есть несколько причин. Наиболее очевидная причина заключается в том, что не существует чувствительных к затратам реализаций всех алгоритмов обучения, и, следовательно, подход на основе обертки с использованием выборки является единственным вариантом. Хотя сегодня это, безусловно, менее верно, чем в прошлом, многие алгоритмы обучения (например, C4.5) по-прежнему напрямую не управляют затратами в процессе обучения.

Вторая причина использования выборки состоит в том, что многие сильно искаженные наборы данных огромны, и размер обучающего набора должен быть уменьшен, чтобы обучение было осуществимым. В этом случае недостаточная выборка представляется разумной и обоснованной стратегией. В этой статье мы не рассматриваем необходимость уменьшения размера тренировочного набора. Однако мы хотели бы отметить, что если нужно отбросить некоторые обучающие данные, все равно было бы полезно отбросить некоторые из примеров большинства классов, чтобы уменьшить размер обучающего набора до требуемого размера, а затем использовать затраты. чувствительный алгоритм обучения, так что количество отбрасываемых обучающих данных минимизируется.

Последняя причина, которая, возможно, способствовала использованию выборки, а не алгоритма обучения, чувствительного к затратам, состоит в том, что затраты на неправильную классификацию часто неизвестны. Однако это не является веской причиной для использования выборки с использованием алгоритма обучения, чувствительного к затратам, поскольку аналогичная проблема возникает с выборкой - каким должно быть распределение классов по окончательным данным обучения? Если эта информация о затратах неизвестна, такая мера, как площадь под кривой ROC, может использоваться для измерения эффективности классификатора, и тогда оба подхода могут эмпирически определить правильное соотношение затрат / распределение классов.

Они также провели серию экспериментов, которые не дали результатов:

Исходя из результатов всех наборов данных, не существует окончательного победителя между чувствительным к затратам обучением, передискретизацией и недостаточной выборкой.

Затем они пытаются понять, какие критерии в наборах данных могут указывать на то, какой метод лучше подходит.

Они также отмечают, что SMOTE может принести некоторые улучшения:

Есть множество улучшений, которые люди сделали, чтобы повысить эффективность отбора проб. Некоторые из этих улучшений включают в себя введение новых «синтетических» примеров при передискретизации [5 -> SMOTE], удаление менее полезных примеров из класса большинства при недостаточной выборке [11] и использование нескольких подвыборок при недостаточной выборке, например, каждый пример используется как минимум в одном подвыборка [3]. Хотя эти методы сравнивались с передискретизацией и недостаточной выборкой, они, как правило, не сравнивались с чувствительными к затратам алгоритмами обучения. Это стоило бы изучить в будущем.

{1} Вайс, Гари М., Кейт Маккарти и Биби Забар. «Чувствительное к затратам обучение по сравнению с выборкой: что лучше всего подходит для обработки несбалансированных классов с неравной стоимостью ошибок?» DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

— Франк Дернонкур
источник

Когда вы говорите «алгоритм обучения, чувствительный к затратам», должен ли мой мозг думать «наказывать классы с высокой частотой появления и, возможно, придавать большее значение классам с низкой частотой»? Эта концепция эквивалентна присвоению весов классов?

— Джарад