Классификация тестирования данных с избыточным дискретизацией


18

Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода:

  • SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE )

  • ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения ( ADASYN )

Я реализовал ADASYN, потому что его адаптивный характер и простота расширения для многоклассовых задач.

Мой вопрос заключается в том, как проверить данные с передискретизацией, произведенные ADASYN (или любыми другими методами передискретизации). В упомянутых двух статьях неясно, как они проводили свои эксперименты. Есть два сценария:

1- Перебор всего набора данных, затем разделение его на наборы для обучения и тестирования (или перекрестную проверку).

2- После разделения исходного набора данных выполните передискретизацию только на обучающем наборе и выполните тестирование на исходном наборе данных для испытаний (можно выполнить с перекрестной проверкой).

В первом случае результаты намного лучше, чем без передискретизации, но я обеспокоен, если есть переобучение. В то время как во втором случае результаты немного лучше, чем без передискретизации, и намного хуже, чем в первом случае. Но проблема со вторым случаем заключается в том, что если все выборки из класса меньшинства отправляются в набор для тестирования, то при избыточной выборке не будет достигнуто никакого преимущества.

Я не уверен, есть ли другие параметры для проверки таких данных.

Ответы:


18

Несколько комментариев:

Опция (1) - очень плохая идея. Копии одной и той же точки могут оказаться как в учебных, так и в тестовых наборах. Это позволяет классификатору обмануть, потому что при попытке сделать прогнозы на тестовом наборе классификатор уже видел идентичные точки в наборе поездов. Весь смысл наличия тестового набора и набора поездов состоит в том, что тестовый набор должен быть независимым от набора поездов.

К


Спасибо Стефану за ответ. Но я хочу уточнить: методы, которые я упомянул, создают «синтетические» экземпляры данных, не совсем такие, как исходный. Так что это не совсем так, как будто я тестирую на тех же данных тренировки. Но, тем не менее, я не уверен, является ли вариант 1 правильным.
Тарифы

Да я вижу! Однако проблема с (1) сохраняется, даже если вы создаете «синтетические» данные, потому что синтетические данные обычно очень похожи на исходные данные, которые имитируют.
Стефан Вейджер

@StefanWager как насчет распространения набора тестирования? Должно ли оно быть таким же, как исходный набор данных?
wannik

2
какие-либо ссылки на статьи, чтобы поддержать это требование?
girl101

Подход @ stefan верен: вы никогда не увеличиваете и не синтезируете свой набор валидации, потому что это ваше доказательство (тест) того, как ваша модель
обучается

8

Второй (2) вариант - правильный способ сделать это. Синтетические сэмплы, которые вы создаете с помощью методов передискретизации, являются не реальными примерами, а скорее синтетическими. Они не действительны для целей тестирования, в то время как они все еще в порядке для обучения. Они предназначены для изменения поведения классификатора без изменения алгоритма.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.