Меня больше всего (и чаще всего) раздражает «валидация», направленная на ошибку обобщения прогностических моделей, когда данные теста не являются независимыми (например, как правило, множественные измерения на пациента в данных, измерения расщепления вне начальной загрузки или перекрестной валидации не пациенты ).
Еще более раздражает то, что документы, которые дают такие ошибочные результаты перекрестной проверки, плюс независимый набор тестов, который демонстрирует чрезмерную оптимистическую предвзятость перекрестной проверки, но ни единого слова о том, что конструкция перекрестной проверки неверна ...
(Я был бы очень рад, если бы были представлены те же данные: «Мы знаем, что перекрестная проверка должна разделить пациентов, но мы застряли с программным обеспечением, которое не позволяет этого. Поэтому мы дополнительно протестировали действительно независимый набор тестируемых пациентов». «)
(Я также знаю, что начальная загрузка = повторная выборка с заменой обычно работает лучше, чем перекрестная проверка = повторная выборка без замены. Однако мы нашли для спектроскопических данных (имитированные спектры и слегка искусственная модель, но реальные спектры), которые повторяли / повторяли перекрестную проверку и выводили - у of-bootstrap была схожая общая неопределенность, у oob было больше смещения, но меньше дисперсии - для повторения, я смотрю на это с очень прагматической точки зрения: повторная перекрестная проверка по сравнению с out-of-bootstrap не имеет значения, так как многие статьи не делить по пациентам и не сообщать / обсуждать / упоминать случайную неопределенность из-за ограниченного размера тестовой выборки.)
Помимо того, что это неправильно, у этого также есть побочный эффект, что люди, которые делают надлежащую проверку, часто должны защищать, почему их результаты намного хуже, чем все эти другие результаты в литературе.