Почему в классической статистике не используется метод удержания (разделение данных на обучение и тестирование)?

12

В моей классной работе по извлечению данных был предложен метод удержания для оценки производительности модели. Однако, когда я взял свой первый класс по линейным моделям, это не было введено как средство проверки или оценки модели. Мои онлайн-исследования также не показывают какого-либо пересечения. Почему метод удержания не используется в классической статистике?

— tirkquest
источник

22

Более продуктивный вопрос может быть: «Почему он не использовался в классической статистике, которую я изучил?»

В зависимости от уровня (ов), на котором он преподавался, содержание курса (и доступное время), который может быть выбран, может быть обусловлен сочетанием различных факторов. Часто важные темы оставляются в стороне, потому что другие материалы должны преподаваться по той или иной причине, в надежде, что они могут быть рассмотрены в более поздних предметах.

По крайней мере, в некоторых смыслах это понятие уже давно используется разными людьми. Это было более распространено в некоторых областях, чем в других. Многие виды использования статистики не имеют прогнозирования или выбора модели в качестве основного компонента (или в некоторых случаях, даже вообще), и в этом случае использование отсроченных выборок может быть менее критичным, чем когда прогнозирование является основным пунктом. Можно утверждать, что он должен был получить более широкое использование на более ранней стадии в некоторых соответствующих приложениях, чем это было, но это не то же самое, что быть неизвестным.

Если вы посмотрите на области, в которых основное внимание уделяется прогнозированию, понятие оценки модели путем прогнозирования данных, которые вы не использовали для оценки вашей модели, наверняка было (хотя и не универсальным). Я, конечно, делал это с моделированием временных рядов, которое я делал, например, в 1980-х годах, когда прогностическая эффективность самых последних данных вне выборки была особенно важна.

Понятие об исключении хотя бы некоторых данных использовалось, например, в регрессии (удаленные остатки, ПРЕССА, Убойный убийца и т. Д.) И в анализе выбросов.

Некоторые из этих идей уже давно известны. Стоун (1974) [1] относится к работам по перекрестной проверке (со словом в названии) 1950-х и 60-х годов. Возможно, даже ближе к вашему намерению, он упоминает об использовании Саймоном (1971) терминов «выборка конструкции» и «выборка проверки» - но также указывает, что «Ларсон (1931) использовал случайное деление выборки в образовательном множестве -регрессионное исследование ".

Такие темы, как перекрестная проверка и использование статистики, основанной на прогнозировании и т. Д., Стали значительно более частыми в статистической литературе, например, в 70-х и 80-х годах, но многие из основных идей были известны довольно давно. тогда.

[1]: Стоун, М., (1974)
"Перекрестный выбор и оценка статистических прогнозов",
журнал Королевского статистического общества. Серия B (Методологическая) , вып. 36, № 2., с. 111-147

— Glen_b - Восстановить Монику
источник

Просто для записи, что М. Стоун не я, и он не связан со мной, за исключением, возможно, через Адама и Еву.

— Марк Л. Стоун

11

В дополнение к ответу Glen_b, классическая статистика часто делала / акцентировала внимание на оптимальном использовании данных, оптимальных тестах, оптимальных оценках, достаточности и т. Д., И в этой теоретической структуре трудно оправдать не использование части информации ! Частью этой традиции является акцент на ситуациях с небольшими выборками, где удержание практически затруднено.

Например, Фишер работал, главным образом, с генетикой и сельскохозяйственными экспериментами, и в этих областях правилом было небольшое количество наблюдений. Поэтому он в основном сталкивался с такими проблемами с небольшими наборами данных.

— Къетил б Халворсен
источник

6

Я отвечу из прикладной области, которая, возможно, находится между классической статистикой и машинным обучением: хемометрия, то есть статистика для химического анализа. Я добавлю два разных сценария, в которых задержка не так важна, как в обычных классах машинного обучения.

Сценарий 1:

Я думаю, что одним из важных моментов здесь является осознание того, что есть принципиальная разница в том, что такое небольшой размер выборки для обучения и тестирования:

Для обучения обычно имеет значение соотношение количества случаев: сложность модели (количество параметров) (степени свободы).
Для тестирования имеет значение абсолютное количество тестовых случаев.
(Качество процедуры тестирования должно быть независимым от модели: это рассматривается как черный ящик при проверке с независимыми контрольными примерами)

$\gg$

В настоящее время статистические лекции по «классическим» линейным моделям часто делают упор на одномерные модели. Для одномерной линейной модели размер обучающей выборки, вероятно, не мал: размеры обучающей выборки обычно оцениваются по сравнению со сложностью модели, а линейная модель имеет только два параметра: смещение и наклон. В аналитической химии у нас фактически есть норма, которая гласит, что вам нужно иметь как минимум 10 калибровочных образцов для вашей одномерной линейной калибровки. Это обеспечивает ситуацию, когда нестабильность модели надежно не является проблемой, поэтому задержка не требуется.

Тем не менее, в машинном обучении, а также с современными многоканальными детекторами в химическом анализе (иногда 10⁴ «каналов», например, в масс-спектрометрии), стабильность модели (т.е. дисперсия) является важной проблемой. Таким образом, требуется выдержка или лучшая повторная выборка.

Сценарий 2:

Совершенно иная ситуация заключается в том, что удержание может быть пропущено в пользу комбинации более простого (остатки) и более сложного измерения производительности. Обратите внимание , что захват-аут в смысле (случайно) Откладывая часть в наборе данных и за исключением этого от обучения не соответствует тому , что независимое тестирование может достичь. В аналитической химии могут проводиться специальные эксперименты по валидации, которые будут включать, например, измерение ухудшения характеристик во времени (дрейф инструмента), который не может быть измерен путем удержания, и определение, например, производительности датчика в реальной промышленной среде (тогда как калибровка датчика было сделано в лаборатории по калибровке образцов). Смотрите также /stats//a/104750/4598 для получения более подробной информации о независимом тестировании против удержания.

— cbeleites недоволен SX
источник

Выше, в sceanario 1, я думаю, что вы хотели сказать (смещение << дисперсия)? Пожалуйста исправьте!

— kjetil b halvorsen

1

@kjetilbhalvorsen нет, потому что она имеет в виду недостаточную подгонку в этом параграфе (модель, которая не достаточно сложна).

— Марк Класен

@kjetilbhalvorsen; Марк Клезен прав, я подчеркнул, что это для ситуаций, когда вы можете быть уверены, что проблема не подходит.

— cbeleites недоволен SX

OK. некоторые письма, чтобы удовлетворить требование

— kjetil b halvorsen