Перекрестная проверка (CV) и обобщенная статистика перекрестной проверки (GCV)


23

Я обнаружил, возможно, противоречивые определения для статистики перекрестной проверки (CV) и для статистики обобщенной перекрестной проверки (GCV), связанной с линейной моделью (с нормальным гомоскедастическим вектором ошибок ).εY=Xβ+εε

С одной стороны, Голуб, Хит и Вахба определяют оценку GCV как (стр. 216)λ^

минимизатор заданный где A \ left (\ lambda \ right) = X \ left (X ^ TX + n \ lambda I \ right) ^ {- 1} X ^ TV(λ)A(λ)=X(XTX+nλI)-1XT

V(λ)=1n(IA(λ))y2(1ntr(IA(λ)))2
A(λ)=X(XTX+nλI)1XT

С другой стороны, Эфрон определяет ту же концепцию, что и V(0) (с. 24), однако он приписывает введение этой концепции Craven & Wahba, где ее определение (с. 377) по существу такое же как упомянутое выше определение Голуба, Хита и Вахбы.

Означает ли это, что 0 минимизирует V(λ) ?

Точно так же Голуб, Хит и Вахба определяют оценку CV λ (стр. 217) как минимизатор

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

где β(k)(λ) - оценка

β^(λ)=(XTX+nλI)1XTy

of β с опущенной k й точкой данных yi .

Авторы связывают введение оценки CV (также называемой оценкой PRESS) с Алленом («ПРЕССА Аллена», там же). Однако в статье Аллена оценка PRESS определяется (стр. 126) как nP(0) (в статье Эфрона он определен как P(0) (стр. 24)).

Опять же, означает ли это, что 0 минимизирует P(λ) ?


  1. Аллен, Дэвид М. Взаимосвязь между выбором переменных и агрегацией данных и метод прогнозирования. Technometrics, Vol. 16, № 1 (февраль 1974 г.), с. 125-127.

  2. Крейвен, Питер и Вахба, Грейс. Сглаживание зашумленных данных с помощью сплайн-функций. Numerische Mathematik 31, (1979), с. 377-403

  3. Эфрон, Брэдли. Насколько смещен коэффициент явной ошибки логистической регрессии? Технический отчет № 232. Статистический факультет Стэнфордского университета (апрель 1985 года)

  4. Голуб, Джин Х., Хит и Грейс Вахба. Обобщенная перекрестная проверка как метод выбора хорошего хребта. Technometrics, Vol. 21, № 2 (май 1979 г.), с. 215-223.


7
Вы забыли упомянуть, что это будет соответствовать регрессии гребня и не в последнюю очередь квадратов? Я был совершенно сбит с толку о том, что такое пока не увидел названия бумаги внизуλ
shadowtalker

1
Удалите обобщенную перекрестную проверку в заголовке и добавьте регрессию гребня в заголовок. Вот что GridSearchCV () по умолчанию использует для RidgeCV ():
HoofarLotusX

Ответы:


2

Я считаю, что комментарии указывают на ответ, но не указывают его прямо. Так что я буду тупым.

Приведенная здесь формула V относится к линейной регрессии гребня. Они не говорят, что это то же самое, что PRESS, они говорят, что это версия, не зависящая от ротации. Часть, инвариантная к вращению, является тем, что делает это обобщенным.

Статья Эфрона посвящена логистической регрессии, адаптированной к этому контексту. Если вы хотите увидеть математический перевод между двумя контекстами, то вам стоит прочитать книгу «Элементы статистического обучения», 2ed, Хасти, Тибширани и Фридмана. Они предлагают эту книгу бесплатно онлайн: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Еще одно полезное чтение по GCV - Обобщенные аддитивные модели Саймона Вуда. Его лечение объединяет GCV в целом с приложениями в регрессии и логистической регрессии.

Если вы посмотрите на книгу ESL, стр. 244, вы увидите в основном ту же символику. Они ссылаются на тот большой матричный продукт, который у вас есть, как матрицу Smoother (я бы сказал, это матрица Hat или близкая кузина). Они описывают Плавность S как отображение от y к уy^

y^=Sy

S можно использовать для расчета оставьте одно значение CV, по одному для каждой строки в данных. Длялинейных моделей, тоS матрица играет роль матрицы Hat в регрессионной диагностике. Тем не менее, они говорят, что это может быть вычислительно сложным или ненужным, чтобы решить это, и подход GCV является несколько более общей версией той же идеи.

Они предлагают формулу для приближения GCV:

GCV(f^)=1Ni=1N[yif^(xi)1trace(S)/N]2

Это очень похоже на поведение AIC во многих моделях. traceS является эффективным количеством параметров.

Часть nλ вы цитируете, является в общем следом S . Насколько я понимаю, в абстрактном GCV приведен примерный вариант пропуска без перекрестной проверки, но в некоторых случаях (я считаю, что регрессия гребня) это точно. Это главное в статье Голуба.

Удачи, напишите, если узнаете больше.


Спасибо. Я разместил свой вопрос более 5 лет назад, и с тех пор я забыл большую часть этого материала, поэтому я не могу оценить ваш ответ, чтобы сказать, является ли он хорошим (что кажется) или плохим, и по этой причине Я тоже не могу принять это. Спасибо за публикацию, хотя. Надеюсь, это будет полезно для других, кто может наткнуться на эту страницу.
Эван Аад
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.