Оптимизация: корень зла в статистике?

Я слышал следующее выражение раньше:

«Оптимизация - корень зла в статистике».

Например, верхний ответ в этой теме делает это утверждение в связи с опасностью слишком агрессивной оптимизации во время выбора модели.

Мой первый вопрос заключается в следующем: относится ли эта цитата к какому-либо конкретному лицу? (например, в статистической литературе)

Из того, что я понимаю, в заявлении говорится о рисках переоснащения. Традиционная мудрость гласит, что правильная перекрестная проверка уже борется с этой проблемой, но, похоже, в этой проблеме есть нечто большее.

Должны ли статистики и специалисты по ОД опасаться чрезмерной оптимизации своих моделей даже при соблюдении строгих протоколов перекрестной проверки (например, 100-кратное 10-кратное резюме)? Если так, как мы узнаем, когда прекратить искать «лучшую» модель?

cross-validation optimization overfitting

— Амелио Васкес-Рейна
источник

Второй вопрос определенно стоит сам по себе, не так ли?

— Russellpierce

@Glen_b Я оставил ссылку в этой теме. Но просто чтобы уточнить, Дикран уже предложил открывать последующие вопросы к своему ответу в отдельных ветках, и я сомневаюсь, что этот вопрос должен быть рассмотрен в комментарии.

— Амелио Васкес-Рейна

@ RussellS.Pierce Правка, в которой содержался вопрос в его нынешнем виде - даже если он был сделан до моего комментария - не было там, когда я загрузил его и начал исследовать оригинальный вопрос и возможные ответы, он имел только то, что я описал как риторический вопрос там. Вопрос в том виде, в каком он сейчас стоит, в порядке.

— Glen_b

Проблема перекрестной проверки рассматривается в другом вопросе здесь: stats.stackexchange.com/questions/29354/… Перекрестная проверка может помочь избежать чрезмерной подгонки, но она не решает проблему полностью. Знание того, когда остановиться, может быть весьма сложной задачей, и я не думаю, что может быть общее решение.

— Дикран Сумчатый

«Надлежащая перекрестная проверка уже борется с этой проблемой, но, похоже, в этой проблеме есть нечто большее». Да: проблема по-прежнему заключается в дисперсии оценок перекрестной проверки (в сочетании с проблемой множественного тестирования). Если я найду время, я напишу ответ на ваш связанный вопрос.

— cbeleites поддерживает Монику

Ответы:

Цитата является перефразировкой цитаты Дональда Кнута , которую он сам приписал Хоару. Три выдержки из приведенной выше страницы:

Преждевременная оптимизация - корень всего зла (или, по крайней мере, большей его части) в программировании.

Преждевременная оптимизация - корень всего зла.

Кнут называет это "Диктумом Хоара" 15 лет спустя ...

Не знаю, согласен ли я со статистическим перефразированием *. В статистике много «зла», которое не имеет отношения к оптимизации.

Должны ли статистики и специалисты по ОД всегда опасаться чрезмерной оптимизации своих моделей даже при соблюдении строгих протоколов перекрестной проверки (например, 100-кратное 10-кратное резюме)? Если так, как мы узнаем, когда прекратить искать «лучшую» модель?

Я думаю, что критически важно полностью понять (или настолько полно, насколько это возможно) свойства тех процедур, которые вы выполняете.

$\,^\text{* I won't presume to comment on Knuth's use of it, since there's little I could}$ $\quad ^\text{say that he couldn't rightly claim to understand ten times as well as I do.}$

— Glen_b - Восстановить Монику
источник

Спасибо, это полезно. Я думаю, что есть некоторые интересные связи между преждевременной оптимизацией в программировании и переоснащением. Интересно, есть ли в нашем сообществе подобные цитаты, и есть ли строгий способ бороться с этим в статистике.

— Амелио Васкес-Рейна

Мое использование этой фразы было вдохновлено словами Кнута, хотя причина иная, и с байесовской точки зрения почти вся оптимизация - это плохо, а маргинализация - лучше.

— Дикран Сумчатый

Несколько способов анализа предложения (в статистике) при условии, что оптимизация относится к (управляемому данными) выбору модели:

Если вам небезразличен прогноз, вам лучше использовать усреднение моделей, а не выбирать одну модель.
Если вы выберете модель в том же наборе данных, который использовался для подгонки к модели, это нанесет ущерб обычным инструментам / процедурам вывода, которые предполагают, что вы выбрали модель априори . (Допустим, вы делаете пошаговую регрессию, выбирая размер модели путем перекрестной проверки. Для анализа Frequentist обычные значения p или CI для выбранной модели будут неправильными. Я уверен, что существуют соответствующие проблемы для байесовского анализа, которые включают модель выбор.)
Если ваш набор данных достаточно велик по сравнению с семейством моделей, которое вы рассматриваете, переобучение может даже не быть проблемой, и выбор модели может быть ненужным. (Скажем, вы собираетесь подогнать линейную регрессию, используя набор данных с несколькими переменными и очень многими наблюдениями. Любые ложные переменные должны в любом случае получать коэффициенты, близкие к 0, поэтому, возможно, вам даже не придется выбирать меньшую модель.)
Если ваш набор данных достаточно мал, у вас может не хватить данных, чтобы соответствовать «истинной» или «наилучшей» модели проблемы. Что в этом случае означает хороший выбор моделей? (Вернуться к линейной регрессии: вы должны стремиться , чтобы выбрать «истинную» модель с нужными переменными, даже если у вас нет достаточно данных , чтобы измерить их все адекватно , если вы просто выбрать самую большую модель , для которой вы действительно имеете достаточно данных ?)
Наконец, даже когда ясно, что вы можете и должны делать выбор модели, перекрестная проверка не является панацеей. У него есть много вариантов и даже собственный параметр настройки (количество сгибов или соотношение «поезд: тест»), который влияет на его свойства. Так что не верь этому слепо.

— civilstat
источник