Создание несбалансированного набора данных


11

Я хотел бы проверить мою обученную модель на несбалансированном наборе данных. Есть ли какие-либо алгоритмы для генерации синтетических данных из сбалансированного помеченного набора данных (спам / не спам)?


Вы всегда можете разбалансировать любой набор данных, просто сократив выборку одного класса.
user2974951

Ответы:


8

Попробуйте SMOTE , это алгоритм, используемый для передискретизации . Он создает синтетические образцы из класса, который вы хотите перевыбор.

Вы можете использовать это, чтобы создать любое количество образцов, которые вам нужны.


1
можно ли использовать SMOTE для недостаточной выборки?
Стюарт Петерсон

Что ж, вы можете получить недостаточную выборку класса A с помощью класса повышенной выборки notA ...
kjetil b halvorsen

3
@StuartPeterson Нет, SMOTE - это алгоритм избыточной выборки, но есть много других алгоритмов
недостаточной
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.