Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение?
Примечание: это для ситуации, когда #cases> total #features
Я преобразовываю некоторые из моих данных с помощью преобразования журнала, а затем нормализую все данные, как указано выше. Затем я выполняю выбор функций. Затем я применяю выбранные функции и нормализованные данные к повторной 10-кратной перекрестной проверке, чтобы попытаться оценить обобщенную производительность классификатора, и меня беспокоит, что использование всех данных для нормализации может быть нецелесообразным. Должен ли я нормализовать данные теста для каждого сгиба, используя нормализующие данные, полученные из данных тренировки для этого сгиба?
Любые мнения с благодарностью получены! Извиняюсь, если этот вопрос кажется очевидным.
Изменить: При тестировании этого (в соответствии с предложениями ниже) я обнаружил, что нормализация до CV не имеет большого значения с точки зрения производительности по сравнению с нормализацией в CV.