Создание несбалансированного набора данных

Я хотел бы проверить мою обученную модель на несбалансированном наборе данных. Есть ли какие-либо алгоритмы для генерации синтетических данных из сбалансированного помеченного набора данных (спам / не спам)?

unbalanced-classes synthetic-data

— Стюарт Петерсон
источник

Вы всегда можете разбалансировать любой набор данных, просто сократив выборку одного класса.

— user2974951

Попробуйте SMOTE , это алгоритм, используемый для передискретизации . Он создает синтетические образцы из класса, который вы хотите перевыбор.

Вы можете использовать это, чтобы создать любое количество образцов, которые вам нужны.

— Mary93
источник

можно ли использовать SMOTE для недостаточной выборки?

— Стюарт Петерсон

Что ж, вы можете получить недостаточную выборку класса A с помощью класса повышенной выборки notA ...

— kjetil b halvorsen

@StuartPeterson Нет, SMOTE - это алгоритм избыточной выборки, но есть много других алгоритмов

— недостаточной