Применение EDA на тестовых данных неверно.
Обучение - это процесс поиска правильных ответов для создания лучшей модели. Этот процесс не ограничивается только запуском кода на обучающих данных. Использование информации из EDA, чтобы решить, какую модель использовать, настроить параметры и т. Д. Является частью процесса обучения и, следовательно, не должен иметь доступа к тестовым данным. Поэтому, чтобы быть верным себе, используйте тестовые данные только для проверки производительности вашей модели.
Кроме того, если вы понимаете, что модель не работает хорошо во время тестирования, а затем вы возвращаетесь к настройке модели, это тоже не хорошо. Вместо этого разделите ваши тренировочные данные на две части. Используйте один для обучения, а другой для тестирования и настройки ваших моделей. См. В чем разница между набором тестов и набором валидации?