Я не знаю, квалифицируется ли это как комментарий или как ответ. Я кладу сюда, потому что это похоже на ответ.
В к-кратной перекрестной проверке вы разбиваете свои данные на k групп. Если вы покрываете даже «основы», то вы равномерно случайным образом выбираете членов для каждого из k элементов.
Когда я говорю о данных, я рассматриваю каждую строку как образец, а каждый столбец - как измерение. Я привык использовать разные методы для определения важности переменных, важности столбцов.
Что, если вы, как упражнение на мысль, отошли от единого случайного «учебника» и определили, какие строки были важны? Может быть, они сообщают одну переменную за раз, но, возможно, они сообщают больше. Есть ли строки, которые менее важны, чем другие? Может быть, многие из пунктов являются информативными, может быть, мало.
Зная важность переменной, возможно, вы могли бы связать их по важности. Может быть, вы могли бы сделать одну корзину с наиболее важными образцами. Это может определить размер вашего "к". Таким образом, вы будете определять «самый информативный» k-й сегмент и сравнивать его с другими и с наименее информативным.
Это может дать вам представление о максимальном изменении параметров вашей модели. Это только одна форма.
Второй способ разделения k-го сегмента - по величине и направлению влияния. Таким образом, вы можете поместить сэмплы, которые влияют на параметр или параметры в одном направлении, в одно ведро и поместить сэмплы, которые покачивают один и тот же параметр или параметры в противоположном направлении, в другое ведро.
Изменение параметра в этой форме может дать более широкий охват переменных, основанный не на плотности информации, а на породе информации.
Удачи.