Я хотел бы выполнить комбинацию передискретизации и недостаточной выборки, чтобы сбалансировать мой набор данных примерно с 4000 клиентами, разделенными на две группы, где доля одной из групп составляет примерно 15%.
Я изучил SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) и ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), но оба они создают новые синтетические образцы с использованием существующих наблюдений и, например, кНН.
Однако, поскольку многие из атрибутов, связанных с клиентами, являются категоричными, я не думаю, что это правильный путь. Например, многие мои переменные, такие как Region_A и Region_B, являются взаимоисключающими, но с использованием kNN новые наблюдения могут быть размещены как в Region_A, так и в Region_B. Вы согласны с тем, что это проблема?
В этом случае - как можно выполнить передискретизацию в R, просто дублируя существующие наблюдения? Или это неправильный способ сделать это?