Перекрестная проверка (CV) и обобщенная статистика перекрестной проверки (GCV)

Я обнаружил, возможно, противоречивые определения для статистики перекрестной проверки (CV) и для статистики обобщенной перекрестной проверки (GCV), связанной с линейной моделью (с нормальным гомоскедастическим вектором ошибок ). $Y = X\boldsymbol\beta + \boldsymbol\varepsilon$ $\boldsymbol\varepsilon$

С одной стороны, Голуб, Хит и Вахба определяют оценку GCV как (стр. 216) $\hat{\lambda}$

минимизатор заданный где $V\left(\lambda\right)$
$V (λ) = \frac{\frac{1}{n} {‖ (I - A (λ)) y ‖}^{2}}{{(\frac{1}{n} t r (I - A (λ)))}^{2}}$ $V\left(\lambda\right) = \frac{\frac{1}{n} \left\|\left(I - A\left(\lambda\right)\right)y\right\|^2}{\left(\frac{1}{n} \mathrm{tr}\left(I - A\left(\lambda\right)\right)\right)^2}$ $A\left(\lambda\right) = X\left(X^T X + n\lambda I\right)^{-1} X^T$

С другой стороны, Эфрон определяет ту же концепцию, что и $V\left(0\right)$ (с. 24), однако он приписывает введение этой концепции Craven & Wahba, где ее определение (с. 377) по существу такое же как упомянутое выше определение Голуба, Хита и Вахбы.

Означает ли это, что $0$ минимизирует $V\left(\lambda\right)$ ?

Точно так же Голуб, Хит и Вахба определяют оценку CV $\lambda$ (стр. 217) как минимизатор

P (λ) = \frac{1}{n} \sum_{k = 1}^{n} {({[X β^{(k)} (λ)]}_{k} - y_{k})}^{2}

$P\left(\lambda\right) = \frac{1}{n}\sum_{k=1}^n \left(\left[X \beta^{(k)}\left(\lambda\right)\right]_k - y_k\right)^2$

где $\beta^{\left(k\right)}\left(\lambda\right)$ - оценка

\hat{β} (λ) = {(X^{T} X + n λ I)}^{- 1} X^{T} y

$\hat{\beta}\left(\lambda\right) = \left(X^T X + n \lambda I\right)^{-1} X^T y$

of $\beta$ с опущенной $k$ й точкой данных $y_i$ .

Авторы связывают введение оценки CV (также называемой оценкой PRESS) с Алленом («ПРЕССА Аллена», там же). Однако в статье Аллена оценка PRESS определяется (стр. 126) как $n P\left(0\right)$ (в статье Эфрона он определен как $P\left(0\right)$ (стр. 24)).

Опять же, означает ли это, что $0$ минимизирует $P\left(\lambda\right)$ ?

Аллен, Дэвид М. Взаимосвязь между выбором переменных и агрегацией данных и метод прогнозирования. Technometrics, Vol. 16, № 1 (февраль 1974 г.), с. 125-127.
Крейвен, Питер и Вахба, Грейс. Сглаживание зашумленных данных с помощью сплайн-функций. Numerische Mathematik 31, (1979), с. 377-403
Эфрон, Брэдли. Насколько смещен коэффициент явной ошибки логистической регрессии? Технический отчет № 232. Статистический факультет Стэнфордского университета (апрель 1985 года)
Голуб, Джин Х., Хит и Грейс Вахба. Обобщенная перекрестная проверка как метод выбора хорошего хребта. Technometrics, Vol. 21, № 2 (май 1979 г.), с. 215-223.

cross-validation

— Эван Аад
источник

Вы забыли упомянуть, что это будет соответствовать регрессии гребня и не в последнюю очередь квадратов? Я был совершенно сбит с толку о том, что такое пока не увидел названия бумаги внизу

λ

$\lambda$

— shadowtalker

Удалите обобщенную перекрестную проверку в заголовке и добавьте регрессию гребня в заголовок. Вот что GridSearchCV () по умолчанию использует для RidgeCV ():

— HoofarLotusX

Я считаю, что комментарии указывают на ответ, но не указывают его прямо. Так что я буду тупым.

Приведенная здесь формула V относится к линейной регрессии гребня. Они не говорят, что это то же самое, что PRESS, они говорят, что это версия, не зависящая от ротации. Часть, инвариантная к вращению, является тем, что делает это обобщенным.

Статья Эфрона посвящена логистической регрессии, адаптированной к этому контексту. Если вы хотите увидеть математический перевод между двумя контекстами, то вам стоит прочитать книгу «Элементы статистического обучения», 2ed, Хасти, Тибширани и Фридмана. Они предлагают эту книгу бесплатно онлайн: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Еще одно полезное чтение по GCV - Обобщенные аддитивные модели Саймона Вуда. Его лечение объединяет GCV в целом с приложениями в регрессии и логистической регрессии.

Если вы посмотрите на книгу ESL, стр. 244, вы увидите в основном ту же символику. Они ссылаются на тот большой матричный продукт, который у вас есть, как матрицу Smoother (я бы сказал, это матрица Hat или близкая кузина). Они описывают Плавность $S$ как отображение от $y$ к $\hat{y}$

\hat{y} = S y

$\hat{y}=S y$

$S$ можно использовать для расчета оставьте одно значение CV, по одному для каждой строки в данных. Длялинейных моделей, то $S$ матрица играет роль матрицы Hat в регрессионной диагностике. Тем не менее, они говорят, что это может быть вычислительно сложным или ненужным, чтобы решить это, и подход GCV является несколько более общей версией той же идеи.

Они предлагают формулу для приближения GCV:

G C V (\hat{f}) = \frac{1}{N} \sum_{i = 1}^{N} {[\frac{y_{i} - \hat{f} (x_{i})}{1 - t r a c e (S) / N}]}^{2}

$GCV(\hat{f})=\frac{1}{N}\sum_{i=1}^{N}\left[\frac{y_i - \hat{f}(x_i)}{1-trace(S)/N}\right]^2$

Это очень похоже на поведение AIC во многих моделях. $trace{S}$ является эффективным количеством параметров.

Часть $n\lambda$ вы цитируете, является в общем следом $S$ . Насколько я понимаю, в абстрактном GCV приведен примерный вариант пропуска без перекрестной проверки, но в некоторых случаях (я считаю, что регрессия гребня) это точно. Это главное в статье Голуба.

Удачи, напишите, если узнаете больше.

— pauljohn32
источник

Спасибо. Я разместил свой вопрос более 5 лет назад, и с тех пор я забыл большую часть этого материала, поэтому я не могу оценить ваш ответ, чтобы сказать, является ли он хорошим (что кажется) или плохим, и по этой причине Я тоже не могу принять это. Спасибо за публикацию, хотя. Надеюсь, это будет полезно для других, кто может наткнуться на эту страницу.

— Эван Аад