Во многих приложениях машинного обучения так называемые методы дополнения данных позволили построить лучшие модели. Например, предположим, тренировочный набор из изображений кошек и собак. Вращением, зеркальным отображением, регулировкой контрастности и т. Д. Можно создавать дополнительные изображения из исходных.
В случае изображений увеличение данных является относительно простым. Однако предположим (например), что у каждого есть обучающий набор из выборок и нескольких сотен непрерывных переменных, которые представляют разные вещи. Увеличение данных больше не кажется таким интуитивным. Что можно сделать в таком случае?