Предположим, у меня небольшой размер выборки, например, N = 100, и два класса. Как выбрать размеры обучения, перекрестной проверки и тестового набора для машинного обучения?
Я бы интуитивно выбрал
- Размер тренировочного набора 50
- Размер набора для перекрестной проверки 25, и
- Размер теста как 25.
Но, вероятно, это имеет более или менее смысл. Как мне действительно определить эти значения? Могу ли я попробовать другие варианты (хотя я думаю, что это не так предпочтительнее ... повышенная вероятность переучивания)?
Что если бы у меня было больше двух классов?