Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с использованием корреляции с метками классов), выполненный вне оценки производительности модели с использованием перекрестной проверки (или другого метода оценки модели, такого как начальная загрузка), может привести к переобучению.
Это кажется мне не интуитивным - конечно, если вы выберете набор функций, а затем оцените свою модель, используя только выбранные функции, используя перекрестную проверку, тогда вы получите объективную оценку обобщенной производительности модели по этим функциям (предполагается, что исследуемый образец является репрезентативным населения)?
С помощью этой процедуры, конечно, нельзя претендовать на оптимальный набор функций, но можно ли сообщить, что эффективность выбранного набора функций на невидимых данных является действительной?
Я принимаю, что выбор функций на основе всего набора данных может привести к некоторой утечке данных между тестовым набором и набором поездов. Но если набор функций является статическим после первоначального выбора, и никакие другие настройки не выполняются, то действительно ли уместно сообщить о перекрестно проверенных показателях производительности?
В моем случае у меня есть 56 функций и 259 случаев и так #cases> #features. Особенности получены из данных датчика.
Извиняюсь, если мой вопрос кажется производным, но это важный момент для прояснения.
Редактировать: При реализации выбора функций в рамках перекрестной проверки на наборе данных, подробно описанном выше (благодаря ответам ниже), я могу подтвердить, что выбор функций перед перекрестной проверкой в этом наборе данных привел к значительномусмещение. Это смещение / переоснащение было наибольшим при использовании для состава с 3 классами по сравнению с составом с 2 классами. Я думаю, что тот факт, что я использовал ступенчатую регрессию для выбора признаков, увеличил это переоснащение; для сравнения в другом, но связанном наборе данных я сравнил процедуру последовательного прямого выбора признаков, выполненную до перекрестной проверки, с результатами, которые я ранее получил, с выбором признаков в CV. Результаты между обоими методами резко не отличались. Это может означать, что ступенчатая регрессия более склонна к переоснащению, чем последовательная ФС, или может быть причудой этого набора данных.