Будучи (аналитическим) химиком , я сталкиваюсь с обоими подходами: аналитическим расчетом показателей качества [в основном для одномерной регрессии], а также прямым измерением прогнозных показателей качества.
Разделение поезда / теста для меня - это «младший брат» эксперимента по оценке для оценки качества прогноза.
Длинный ответ:
Типичные эксперименты, которые мы проводим, например, в физической химии студентов, используют одномерную регрессию. Интересующим свойством часто являются параметры модели, например постоянная времени при измерении кинетики реакции, но иногда и прогнозы (например, одномерная линейная калибровка для прогнозирования / измерения некоторого интересующего значения).
Эти ситуации очень безобидны с точки зрения того, чтобы не перегружать: после того, как все параметры оценены, обычно остается удобное количество степеней свободы, и они используются для обучения (как в образовании) студентов с классическим доверием или вычислением интервала предсказания и классической ошибкой распространение - они были разработаны для этих ситуаций. И даже если ситуация не совсем похожа на учебник (например, у меня есть структура в моих данных, например, в кинетике, я бы ожидал, что данные лучше описываются дисперсией между прогонами реакции + дисперсия между измерениями в прогоне, чем простой подход, основанный только на одной дисперсии), у меня обычно может быть достаточно прогонов эксперимента, чтобы получить полезные результаты.
Тем не менее, в моей профессиональной жизни, я имею дело с спектроскопические наборы данных ( как правило , 100s в 1000е из случайных величин ) и к тому же с весьма ограниченным набором независимых случаев (образцы) . Часто , поэтому мы используем регуляризацию, из которой не всегда легко сказать, сколько степеней свободы мы используем, и, кроме того, мы стараемся хотя бы несколько компенсировать малое , используя (большие) числа почти повторяющихся измерений. - который оставляет нас с неизвестным эффективным . Не зная илипNп < рNNNdеКлассические подходы не работают. Но поскольку я в основном делаю прогнозы, у меня всегда есть очень прямая возможность измерить прогнозирующую способность моей модели: я делаю прогнозы и сравниваю их с эталонными значениями.
Этот подход на самом деле очень мощный (хотя и дорогостоящий из-за увеличения экспериментальных усилий), поскольку он позволяет мне исследовать прогнозирующее качество также для условий, которые не были охвачены данными обучения / калибровки. Например, я могу измерить, как качество прогнозирования ухудшается с помощью экстраполяции (экстраполяция также включает, например, измерения, сделанные, скажем, через месяц после получения обучающих данных), я могу исследовать устойчивость к мешающим факторам, которые, как я ожидаю, будут важны, и т. Д. Другими словами мы можем изучать поведение нашей модели так же, как мы изучаем поведение любой другой системы: мы исследуем определенные точки или возмущаем ее и смотрим на изменение ответа системы и т. д.
Я бы сказал, что чем важнее качество прогнозирования (и чем выше риск переоснащения), тем больше мы склонны отдавать предпочтение прямым измерениям качества прогнозирования, а не аналитически полученным числам. (Конечно, мы могли бы включить всех этих противников и в план тренировочного эксперимента). Некоторые области, такие как медицинская диагностика, требуют проведения надлежащих валидационных исследований до того, как модель будет «выпущена» на реальных пациентах.
Разделение по поездам / тестам (независимо от того, продлится ли оно *, или перекрестная проверка, или не загружен, или ...) облегчает этот шаг. Мы сохраняем дополнительный эксперимент и не экстраполируем (мы только обобщаем для прогнозирования неизвестных независимых случаев того же самого распределения обучающих данных). Я бы назвал это проверкой, а не проверкой (хотя проверка здесь глубоко в терминологии). Это часто прагматический путь, если не предъявляются слишком высокие требования к точности показателей качества (их не обязательно нужно знать очень точно в сценарии проверки концепции).
* не путайте одно случайное разбиение на обучающее и тестируемое с правильно разработанным исследованием для измерения качества прогнозирования.