Выбор оригинальной (?) Модели с k-кратным CV

При использовании k-кратного CV для выбора между регрессионными моделями я обычно вычисляю ошибку CV отдельно для каждой модели вместе со стандартной ошибкой SE, и выбираю простейшую модель в пределах 1 SE модели с наименьшей ошибкой CV (1 стандартное правило ошибки, см., например, здесь ). Однако недавно мне сказали, что таким образом я переоцениваю изменчивость и что в конкретном случае выбора между двумя моделями A и B мне действительно следует действовать по-другому:

для каждого сгиба длины вычислите поточечные различия между двумя предсказаниями моделей. вычислите среднеквадратичную разницу для сгиба $K$ $N_K$ $M S D_{К} знак равно \sqrt{\frac{Σ_{я знак равно 1}^{N_{К}} {({\hat{Y}}_{A я} - {\hat{Y}}_{В я})}^{2}}{N_{К}}}$ $MSD_K=\sqrt{\frac{\sum_{i=1}^{N_K}\left(\hat{y}_{Ai}-\hat{y}_{Bi}\right)^2}{N_K}}$
усредните по всем как обычно, и используйте эту ошибку разности CV (вместе со своей стандартной ошибкой) в качестве оценки для ошибки обобщения. $MSD_K$

Вопросов:

Это имеет смысл для вас? Я знаю, что есть теоретические причины использования ошибки CV в качестве оценки ошибки обобщения (я не знаю, каковы эти причины, но я знаю, что они существуют!). Я понятия не имею, есть ли теоретические причины использования этой «разницы» в CV-ошибке.
Я не знаю, можно ли это обобщить для сравнения более двух моделей. Вычисление различий для всех пар моделей кажется рискованным (многократное сравнение?): Что бы вы сделали, если бы у вас было более двух моделей?

РЕДАКТИРОВАТЬ: моя формула полностью неверна, правильная метрика описана здесь, и это гораздо сложнее. Что ж, я рад, что спросил здесь, прежде чем слепо применить формулу! Я благодарю @Bay за помощь в понимании его \ ее осветительного ответа. Описанная правильная мера довольно экспериментальна, поэтому я буду придерживаться моей верной рабочей лошади, ошибки CV!

regression cross-validation model-selection

— DeltaIV
источник

$MSD_K$

Например, я мог бы придумать пару глупых предсказателей:

{\hat{Y}}_{A} (Икс, θ) знак равно 1 + \frac{⟨ Икс, 1 ⟩}{θ}

$\hat y_A(\mathbf{x},\theta)= 1+\frac{\langle \mathbf{x},1\rangle}\theta$

{\hat{Y}}_{В} (Икс, θ) знак равно 1 + \frac{⟨ Икс, 1 ⟩}{θ^{2}}

$\hat y_B(\mathbf{x},\theta):= 1+\frac{\langle \mathbf{x},1\rangle}{\theta^2}$

$\theta$ $MSD_K$

$MSD_K$ $MSD_K$

Ответ на комментарий ОП

Формула, представленная в вашем комментарии, требует немного контекста:

Это байесовская мера точности, в которой elpd представляет собой ожидаемую логарифмически-точечную прогностическую плотность - довольно сложный, но в основном это сумма ожидаемых значений логарифма апостериорной прогностической плотности, оцененных в каждой точке данных при некотором предварительном прогнозирующем плотность, которая оценивается с помощью перекрестной проверки.
Вышеуказанная мера (elpd) рассчитывается с использованием перекрестной проверки без проверки, где прогнозная плотность берется в пропущенной точке.
То, что делает их формула (19), вычисляет стандартную ошибку разницы в предсказательной точности (измеренной с использованием elpd) между двумя моделями. Идея состоит в том, что разница в elpd асимптотически нормальна, поэтому стандартная ошибка имеет среднее значение (и может использоваться для проверки, если лежащая в основе разница равна нулю), или если Модель A имеет меньшую ошибку предсказания, чем Модель B.

Итак, в этой мере есть много движущихся частей: вам нужно запустить алгоритм выборки MCMC, чтобы получить точки из плотности задних параметров. Затем вам нужно интегрировать его, чтобы получить прогнозируемую плотность. Затем вам нужно взять ожидаемые значения каждого из них (в течение многих розыгрышей). Это довольно сложный процесс, но в итоге он должен дать полезную стандартную ошибку.

Примечание: в третьем полном абзаце ниже уравнения (19) авторы утверждают, что необходимы дополнительные исследования, чтобы определить, хорошо ли работает этот подход для сравнения моделей ... так что он еще недостаточно хорошо протестирован (в высокой степени экспериментальный). Таким образом, вы в основном доверяете полезности этого метода, пока последующие исследования не подтвердят, что он надежно определяет лучшую модель (с точки зрения elpd ).

s e ({\hat{e l p d}}_{L O O}^{A} - {\hat{e l p d}}_{L O O}^{B})

$se(\widehat{elpd}_{LOO}^A-\widehat{elpd}_{LOO}^B)$

@DeltaIV Хорошо ... Я проверю указанный раздел и попытаюсь распаковать эту формулу для вас.

@ DeltaIV хорошо, у меня есть изменения для обзора. Я расширил свой пост. Похоже, что это очень экспериментальный (и непроверенный) метод для сравнения двух моделей прогнозирования. Я буду осторожен, если вы не сможете проверить его эффективность с помощью собственных исследований в Монте-Карло (т. Е. Сможет ли он выбрать более предсказательную модель, если вы знаете правильный ответ?).