Является ли разделение данных на тестовые и обучающие наборы чисто статистическими данными?

Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и статистический анализ. Тем не менее, я замечаю резкую разницу между тем, как физики работают с данными, и тем, как мои учебники по данным / статистическому обучению работают с данными.

Основное различие заключается в том , что при попытке выполнить регрессию к данным , полученных от физических экспериментов, алгоритмы регрессии применяются к ПОЛНОМУ набору данных, нет абсолютно никакого разделения на обучение и испытательные комплекты. В мире физики R ^ 2 или псевдо-R ^ 2 некоторого типа вычисляется для модели на основе всего набора данных. В мире статистики данные почти всегда делятся на 80-20, 70-30 и т. Д., А затем модель сравнивается с тестовым набором данных.

Существуют также некоторые крупные физические эксперименты (ATLAS, BICEP2 и т. Д.), Которые никогда не проводят такое расщепление данных, поэтому мне интересно, почему существует такая стойкая разница между тем, как физики / экспериментаторы делают статистику, и тем, как ученые данных делать статистику.

— Томас Мур
источник

(+1) очень хороший вопрос (на который у меня нет времени, чтобы правильно ответить). Комментарий: физика обладает роскошью «настоящих экспериментов»; обычно контролируемые / лабораторные условия, в основном четко определенные результаты / переменные и предполагаемая повторяемость. Обычные проекты в области общественного здравоохранения / эконометрики / статистики обследований (если упомянуть несколько очевидных подполей) просто не получают этого. В статистике широко распространены смешение, сезонность (зависимость от времени) и вообще дрейф понятий , поэтому такое «разделение данных» является одним из очевидных способов предотвращения совершенно глупых результатов. Плюс не все оценки созданы одинаково эффективными. :)

— usεr11852

Вы найдете множество актуальных дискуссий и опыта в недавнем дискуссионном документе Дэвида Донохо, профессора статистики в Стэнфорде: courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf См., В частности, обсуждение «Прогнозирующая культура». "в отличие от традиционной статистики.

— Гордон Смит

Я думаю, что это «предсказание в отсутствии теории», которое представляет собой небольшое подмножество «статистики» и большое подмножество машинного обучения.

— Лаконичный

статистики тоже не разделяют свои данные (p <.05)

— rep_ho

@rep_ho некоторые - возможно, многие - статистики, связанные с ситуациями, в которых важен внеплановый прогноз, делают это (а некоторые делают это в течение длительного времени). Например, такие идеи, как перекрестная проверка и статистика об исключениях (например), существуют уже давно. Статистики, как правило, разделяются не один раз, если только это не является неизбежным. Это может зависеть от того, с какими статистиками вы общаетесь

— Glen_b

Ответы:

Не все статистические процедуры разделяются на данные обучения / тестирования, также называемые «перекрестной проверкой» (хотя вся процедура включает в себя немного больше).

Скорее, это метод, который специально используется для оценки ошибки вне выборки ; т.е. насколько хорошо ваша модель будет предсказывать новые результаты, используя новый набор данных? Это становится очень важной проблемой, когда у вас есть, например, очень большое количество предикторов относительно количества выборок в вашем наборе данных. В таких случаях действительно легко построить модель с большой ошибкой выборки, но ужасной ошибкой выборки (называемой «переборкой»). В случаях, когда у вас есть как большое количество предикторов, так и большое количество выборок, перекрестная проверка является необходимым инструментом, помогающим оценить, насколько хорошо модель будет вести себя при прогнозировании на новых данных. Это также важный инструмент при выборе между конкурирующими прогностическими моделями.

С другой стороны, перекрестная проверка почти всегда используется только при попытке построить прогностическую модель. В целом, это не очень полезно для моделей, когда вы пытаетесь оценить эффект некоторого лечения. Например, если вы сравниваете распределение прочности на растяжение между материалами A и B («обработка» является типом материала), перекрестная проверка не потребуется; в то время как мы действительно надеемся, что наша оценка эффекта лечения обобщается вне выборки, для большинства задач классическая статистическая теория может ответить на это (то есть «стандартные ошибки» оценок) более точно, чем перекрестная проверка. К сожалению, классическая статистическая методология ¹для стандартных ошибок не выдерживает переоснащения. В этом случае перекрестная проверка часто дает гораздо лучшие результаты.

С другой стороны, если вы пытаетесь предсказать, когда материал сломается, основываясь на 10 000 измеренных переменных, которые вы добавляете в какую-либо модель машинного обучения, основанную на 100 000 наблюдений, у вас будет много трудностей при создании отличной модели без перекрестной проверки!

Я предполагаю, что во многих экспериментах по физике вы обычно интересуетесь оценкой эффектов. В этих случаях очень мало необходимости в перекрестной проверке.

¹ Можно утверждать, что байесовские методы с информативными априорами являются классической статистической методологией, которая учитывает переоснащение. Но это другое обсуждение.

Примечание: хотя перекрестная проверка впервые появилась в статистической литературе и определенно используется людьми, называющими себя статистиками, она стала основным необходимым инструментом в сообществе машинного обучения. Многие модели статистики будут хорошо работать без перекрестной проверки, но почти все модели, которые считаются «прогностическими моделями машинного обучения», нуждаются в перекрестной проверке, поскольку они часто требуют выбора параметров настройки, что практически невозможно без перекрестной проверки. -Проверка.

— Клифф AB
источник

Я думаю, что ваше последнее редактирование о различении предсказания / вывода немного не в порядке и склонно к неправильной интерпретации (что я мог бы сделать прямо сейчас). Во всяком случае, если мы сделаем вывод, что материал A сильнее, чем B, мы хотим, чтобы и этот материал оставался вне выборки. Кроме того, такая идея будет игнорировать подходы начальной загрузки / перестановок. И пример немного не в порядке; не действительно спас поезд тест-сплит подход , а скорее от регуляризации.

n \approx p

$n \approx p$

— usεr11852

@ usεr11852: да, но практически невозможно выбрать разумные штрафы за регуляризацию без перекрестной проверки (кроме как думать о штрафах как о байесовских априорах, но это сложно с моделями черного ящика!). И хотя мы хотим, чтобы наши результаты при сравнении А с В не учитывались в выборке, обычно это не является проблемой, требующей настройки модели (как это часто бывает с предсказаниями), и при относительно небольшом числе параметров классическая статистическая теория может справиться с этим. без использования перекрестной проверки.

— Клифф А.Б.

Это круговой аргумент, регуляризация использует перекрестную проверку, но перекрестная проверка выполняется для регуляризации. Вот почему я несколько прокомментировал это с самого начала. Я думаю, что статистический вывод / причинно-следственная связь отходит от этого подхода немодельной настройки (см., Например, Йоханссон и др., 2016 г. «Изучение представлений для контрафактного вывода» - такая грязная красивая статья). Наконец, исследования фундаментальной физики, когда они представляются трудными, могут также основываться на подходах ML (например, проблема бигоновского машинного обучения Хиггса ).

— usεr11852

@ usεr11852 Регуляризация «не использует» перекрестную проверку, а параметр настройки для регуляризации выбирается с использованием перекрестной проверки. Например, см glment«S cv.glmnetдля всей процедуры в хорошей компактной функции.

— Клифф А.Б.

Кроме того, я никогда не утверждал, что физические исследования не могут использовать подходы ML или перекрестную проверку! Я только объяснял, что перекрестная проверка обычно используется специально для выбора между сложными моделями / параметрами настройки в прогностических моделях, и что во многих классических физических экспериментах перекрестная проверка не требуется. Поэтому то, что физики делают с этими данными, не обязательно противоречит тому, что статистики будут делать с этими данными, что, как я считаю, было основой вопроса ОП.

— Клифф А.Б.

Будучи (аналитическим) химиком , я сталкиваюсь с обоими подходами: аналитическим расчетом показателей качества [в основном для одномерной регрессии], а также прямым измерением прогнозных показателей качества.
Разделение поезда / теста для меня - это «младший брат» эксперимента по оценке для оценки качества прогноза.

Длинный ответ:

Типичные эксперименты, которые мы проводим, например, в физической химии студентов, используют одномерную регрессию. Интересующим свойством часто являются параметры модели, например постоянная времени при измерении кинетики реакции, но иногда и прогнозы (например, одномерная линейная калибровка для прогнозирования / измерения некоторого интересующего значения).
Эти ситуации очень безобидны с точки зрения того, чтобы не перегружать: после того, как все параметры оценены, обычно остается удобное количество степеней свободы, и они используются для обучения (как в образовании) студентов с классическим доверием или вычислением интервала предсказания и классической ошибкой распространение - они были разработаны для этих ситуаций. И даже если ситуация не совсем похожа на учебник (например, у меня есть структура в моих данных, например, в кинетике, я бы ожидал, что данные лучше описываются дисперсией между прогонами реакции + дисперсия между измерениями в прогоне, чем простой подход, основанный только на одной дисперсии), у меня обычно может быть достаточно прогонов эксперимента, чтобы получить полезные результаты.

Тем не менее, в моей профессиональной жизни, я имею дело с спектроскопические наборы данных ( как правило , 100s в 1000е из случайных величин ) и к тому же с весьма ограниченным набором независимых случаев (образцы) . Часто , поэтому мы используем регуляризацию, из которой не всегда легко сказать, сколько степеней свободы мы используем, и, кроме того, мы стараемся хотя бы несколько компенсировать малое , используя (большие) числа почти повторяющихся измерений. - который оставляет нас с неизвестным эффективным . Не зная или $p$ $n$ $n < p$ $n$ $n$ $n$ $df$ Классические подходы не работают. Но поскольку я в основном делаю прогнозы, у меня всегда есть очень прямая возможность измерить прогнозирующую способность моей модели: я делаю прогнозы и сравниваю их с эталонными значениями.

Этот подход на самом деле очень мощный (хотя и дорогостоящий из-за увеличения экспериментальных усилий), поскольку он позволяет мне исследовать прогнозирующее качество также для условий, которые не были охвачены данными обучения / калибровки. Например, я могу измерить, как качество прогнозирования ухудшается с помощью экстраполяции (экстраполяция также включает, например, измерения, сделанные, скажем, через месяц после получения обучающих данных), я могу исследовать устойчивость к мешающим факторам, которые, как я ожидаю, будут важны, и т. Д. Другими словами мы можем изучать поведение нашей модели так же, как мы изучаем поведение любой другой системы: мы исследуем определенные точки или возмущаем ее и смотрим на изменение ответа системы и т. д.

Я бы сказал, что чем важнее качество прогнозирования (и чем выше риск переоснащения), тем больше мы склонны отдавать предпочтение прямым измерениям качества прогнозирования, а не аналитически полученным числам. (Конечно, мы могли бы включить всех этих противников и в план тренировочного эксперимента). Некоторые области, такие как медицинская диагностика, требуют проведения надлежащих валидационных исследований до того, как модель будет «выпущена» на реальных пациентах.

Разделение по поездам / тестам (независимо от того, продлится ли оно *, или перекрестная проверка, или не загружен, или ...) облегчает этот шаг. Мы сохраняем дополнительный эксперимент и не экстраполируем (мы только обобщаем для прогнозирования неизвестных независимых случаев того же самого распределения обучающих данных). Я бы назвал это проверкой, а не проверкой (хотя проверка здесь глубоко в терминологии). Это часто прагматический путь, если не предъявляются слишком высокие требования к точности показателей качества (их не обязательно нужно знать очень точно в сценарии проверки концепции).

* не путайте одно случайное разбиение на обучающее и тестируемое с правильно разработанным исследованием для измерения качества прогнозирования.

— cbeleites недоволен SX
источник

+1 за указание на разницу в проверке и валидации.

— синоптик