Стабильность модели в перекрестной проверке регрессионных моделей

10

С учетом множественных сгибов перекрестной проверки логистической регрессии и полученных в результате множественных оценок каждого коэффициента регрессии, как следует измерить, является ли предиктор (или набор предикторов) стабильным и значимым на основе коэффициента (ов) регрессии ? Отличается ли это для линейной регрессии?

regression model-selection cross-validation

— Джек Таннер
источник

@BGreene Очень умно. Почему бы не опубликовать это как ответ? Вы также заставляете меня задуматься о том, содержит ли литература по ансамблю что-то актуальное.

— Джек Таннер,

Когда вы говорите «множественная перекрестная проверка», вы имеете в виду, что вы запускаете раз перекрестную проверку в раз?

m

$m$

k

$k$

— Boscovich

@andrea, я говорю «многократные перекрестные проверки», то есть, складок.

k

$k$

— Джек Таннер

2

Вы можете рассматривать коэффициенты регрессии, полученные в результате каждого теста в CV, как независимые наблюдения, а затем рассчитывать их надежность / стабильность, используя коэффициент внутриклассовой корреляции (ICC), как сообщили Shrout & Fleiss.

— BGreene
источник

0

Я предполагаю, что при перекрестной проверке вы разделяете данные на две части: обучающий набор и тестовый набор. В одном случае вы подходите к модели из тренировочного набора и используете ее, чтобы предсказать реакцию тестового набора, верно? Это даст вам частоту ошибок для всей модели, а не для одного предиктора.

Я не знаю, возможно ли найти p-значения для предикторов, используя что-то вроде F-тестов, используемых в обычной линейной регрессии.

Вы можете попытаться удалить предикторы из модели, используя, например, обратный или прямой выбор, если это ваша цель.

Вместо CV вы могли бы использовать начальную загрузку, чтобы найти доверительный интервал для каждого предиктора, а затем посмотреть, насколько он стабилен.

Сколько сгибов вы используете в своем резюме, это перекрестная проверка без участия?

Возможно, более подробная информация о вашей цели поможет ответить на этот вопрос.

— Тобиас Абениус
источник

Предположим, что это один-единственный. У каждого предиктора в каждом сгибе уже есть доверительный интервал, например, из байесовской апостериорной CI или стандартной ошибки glm(..., family="binomial")в R. Что мне делать с интервалами для каждого предиктора в прогонах "оставь один раз"?

— Джек Таннер,