Интересно, какой тип перекрестной проверки модели выбрать для задачи классификации: K-кратная или случайная суб-выборка (выборка с начальной загрузкой)?
Мое лучшее предположение - использовать 2/3 набора данных (который составляет ~ 1000 элементов) для обучения и 1/3 для проверки.
В этом случае K-fold дает только три итерации (сгиба), чего недостаточно, чтобы увидеть стабильную среднюю ошибку.
С другой стороны, мне не нравится функция случайной подвыборки: некоторые элементы никогда не будут выбраны для обучения / проверки, а некоторые будут использоваться более одного раза.
Используемые алгоритмы классификации: случайный лес и логистическая регрессия.