Почему обратное исключение оправдано при множественной регрессии?


9

Не приводит ли это к переоснащению? Могут ли мои результаты быть более надежными, если я добавлю процедуру «домкрат» или процедуру начальной загрузки как часть анализа?


8
Кто сказал, что это оправдано? Конечно это должно привести к переоснащению.
gung - Восстановить Монику

2
Это на самом деле предлагается во многих книгах (все еще?), Например, amazon.com/Statistics-Explained-Introductory-Guide-Scientists/… . Я сам думал о той же проблеме. Я думаю, что у меня есть по крайней мере 3-4 книги по статистике, которые вообще не обсуждают проблему переоснащения при представлении множественной регрессии.
ммч

5
Честно говоря, если во вводной статистической книге не обсуждается переоснащение и чрезмерное тестирование, я бы прочитал другую книгу.
Мэтью Друри

3
Обратное исключение (и прямое выделение) по-прежнему имеет тенденцию к избыточному соответствию, если в качестве критерия выбора признака используется перекрестная проверка с пропуском одного (например, PRESS).
Дикран Сумчатый

5
@mmh, не совсем вводный, но я настоятельно рекомендую прочитать главу 4 Стратегии регрессионного моделирования Фрэнка Харрелла (ну, стоит прочитать не только главу 4, но эта часть особенно актуальна для этой дискуссии).
Glen_b

Ответы:


2

Я думаю, что создание модели и тестирование это разные вещи. Обратное исключение является частью построения модели. Джек нож и бутстрап больше используются для его проверки.

Вы можете, конечно, иметь более надежные оценки с начальной загрузкой и ножом, чем простое обратное исключение. Но если вы действительно хотите проверить переоснащение, окончательный тест - это сплит-выборка, тренируйтесь на одних, тестируйте на других. Отпуск один слишком нестабилен / ненадежен для этой цели: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Я думаю, что, по крайней мере, 10% участников должны выйти, чтобы получить более стабильные оценки надежности модели. И если у вас есть 20 предметов, 2 предмета все еще очень мало. Но тогда возникает вопрос, есть ли у вас достаточно большая выборка, чтобы построить модель, которая может быть применена к остальной части населения.

Надеюсь, что он ответил на ваш вопрос хотя бы частично.


Таким образом, можно просто использовать перекрестную проверку с (или )? k<nk<<n
ммч

Введение в статистическое обучение обсуждает различные подходы к повторной выборке (наборы проверки, перекрестная проверка с различным числом групп, начальная загрузка) в главе 5 и выбор модели в главе 6.
EdM
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.