Регрессия наименьшего угла сохраняет корреляции монотонно убывающими и связанными?

Я пытаюсь решить проблему для наименьшего угла регрессии (LAR). Это проблема 3,23 на странице 97 из Гесте и др., Элементы статистического обучения, второй. редактор (5-я печать) .

Рассмотрим регрессионную проблему со всеми переменными и ответом, имеющими среднее значение ноль и стандартное отклонение единицу. Предположим также, что каждая переменная имеет одинаковую абсолютную корреляцию с ответом:

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p$

Пусть будет коэффициентом наименьших квадратов в и пусть для . $\hat{\beta}$ $\mathbf{y}$ $\mathbf{X}$ $\mathbf{u}(\alpha)=\alpha \bf{X} \hat{\beta}$ $\alpha\in[0,1]$

Меня просят показать, что

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ, j = 1, . . ., p

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y}-u(\alpha) \right \rangle | = (1 - \alpha) \lambda, j = 1, ..., p$ и у меня проблемы с этим. Обратите внимание, что это в основном говорит о том, что корреляции каждого

x_{j}

$x_j$ с остатками остаются равными по величине по мере продвижения к

u

$u$ .

Я также не знаю, как показать, что корреляции равны:

$\lambda(\alpha) = \frac{(1-\alpha)}{\sqrt{(1-\alpha)^2 + \frac{\alpha (2-\alpha)}{N} \cdot RSS}} \cdot \lambda$

Любые указатели будут с благодарностью!

— Belmont
источник

@ Белмонт, что ты ? Не могли бы вы предоставить больше контекста о вашей проблеме? Ссылка на статью со стандартными свойствами LAR, например, очень поможет.

u (α)

$u(\alpha)$

— mpiktas

@ Belmont, Это похоже на проблему от Хасти и др., Элементы статистического обучения , 2-й. редактор Это домашнее задание? Если это так, вы можете добавить этот тег.

— кардинал

@ Belmont, теперь, когда @cardinal дал полный ответ, можете ли вы указать, что такое LAR, для дальнейшего использования? Судя по ответу, это стандартное манипулирование продуктами регрессий наименьших квадратов с учетом некоторых начальных ограничений. Не должно быть специального названия для этого без серьезной причины.

— mpiktas

@mpiktas, это поэтапный алгоритм, поэтому каждый раз, когда переменная входит или выходит из модели на пути регуляризации, размер (то есть, количество элементов / размерность) увеличивается или уменьшается, и используется «новая» оценка LS, основанная на текущие "активные" переменные. В случае лассо, являющегося проблемой выпуклой оптимизации, процедура заключается в использовании специальной структуры в условиях ККТ для получения очень эффективного решения. Есть также обобщения, например, логистической регрессии, основанной на IRLS и Гейне-Бореле (чтобы доказать сходимость в конечном числе шагов.)

β

$\beta$

— кардинальный

@ Белмонт-1, так как я недавно купил книгу Хасти, я могу подтвердить, что это упражнение из нее. Поэтому я даю вам большое -1, поскольку вам даже не удается дать все определения, я даже не говорю о предоставлении ссылки.

— mpiktas

Это проблема 3,23 на странице 97 из Гесте и др., Элементы статистического обучения , второй. редактор (5-я печать) .

Ключом к этой проблеме является хорошее понимание обычных наименьших квадратов (т. Е. Линейной регрессии), в частности, ортогональности подобранных значений и невязок.

Лемма об ортогональности : пусть будет матрицей проектирования , вектором отклика и (истинными) параметрами. Предполагая, что является полным рангом (что мы и будем везде), OLS-оценки : . Подходящие значения: . Тогда . То есть подобранные значения ортогональны остаткам. Это следует, поскольку , $X$ $n \times p$ $y$ $\beta$ $X$ $\beta$ $\hat{\beta} = (X^T X)^{-1} X^T y$ $\hat{y} = X (X^T X)^{-1} X^T y$ $\langle \hat{y}, y-\hat{y} \rangle = \hat{y}^T (y - \hat{y}) = 0$ $X^T (y - \hat{y}) = X^T y - X^T X (X^T X)^{-1} X^T y = X^T y - X^T y = 0$

Теперь быть вектор - столбец такой , что является - го столбца . Предполагаемые условия: $x_j$ $x_j$ $j$ $X$

$\frac{1}{N} \langle x_j, x_j \rangle = 1$ для каждого , , $j$ $\frac{1}{N} \langle y, y \rangle = 1$
$\frac{1}{N} \langle x_j, 1_p \rangle = \frac{1}{N} \langle y, 1_p \rangle = 0$ где обозначает вектор из единиц длины , и $1_p$ $p$
$\frac{1}{N} | \langle x_j, y \rangle | = \lambda$ для всех . $j$

Обратите внимание, что, в частности , последнее утверждение леммы об ортогональности идентично для всех . $\langle x_j, y - \hat{y} \rangle = 0$ $j$

Корреляции связаны

Теперь . Итак, а второе слагаемое в правой части равно нулю по лемме об ортогональности , поэтому по желанию. Абсолютное значение корреляций просто $u(\alpha) = \alpha X \hat{\beta} = \alpha \hat{y}$

⟨ {Икс}_{J}, Y - U (a) ⟩ знак равно ⟨ {Икс}_{J}, (1 - α) Y + α Y - α \hat{Y} ⟩ знак равно (1 - α) ⟨ {Икс}_{J}, Y ⟩ + α ⟨ {Икс}_{J}, Y - \hat{Y} ⟩,

$\langle x_j, y - u(a) \rangle = \langle x_j, (1-\alpha) y + \alpha y - \alpha \hat{y} \rangle = (1-\alpha) \langle x_j, y \rangle + \alpha \langle x_j, y - \hat{y} \rangle ,$

\frac{1}{N} | ⟨ {Икс}_{J}, Y - U (α) ⟩ | знак равно (1 - α) λ,

$\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle | = (1-\alpha) \lambda ,$

{\hat{ρ}}_{J} (α) знак равно \frac{\frac{1}{N} | ⟨ {Икс}_{J}, Y - U (α) ⟩ |}{\sqrt{\frac{1}{N} ⟨ {Икс}_{J}, {Икс}_{J} ⟩} \sqrt{\frac{1}{N} ⟨ Y - U (α), Y - U (α) ⟩}} знак равно \frac{(1 - α) λ}{\sqrt{\frac{1}{N} ⟨ Y - U (α), Y - U (α) ⟩}}

$\hat{\rho}_j(\alpha) = \frac{\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle |}{\sqrt{\frac{1}{N} \langle x_j, x_j \rangle }\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }} = \frac{(1-\alpha)\lambda}{\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }}$

Примечание : правая часть выше не зависит от а числитель точно такой же, как ковариация, так как мы предположили, что все и центрированы (поэтому, в частности, вычитание среднего не требуется ). $j$ $x_j$ $y$

В чем смысл? По мере увеличения вектор отклика изменяется так, что он постепенно приближается к ( ограниченному! ) Решению наименьших квадратов, полученному в результате включения в модель только первых параметров. Это одновременно изменяет оценочные параметры, поскольку они являются простыми внутренними произведениями предикторов с (измененным) вектором ответа. Модификация принимает особую форму, хотя. Он сохраняет (величину) корреляции между предикторами и измененным откликом одинаковыми на протяжении всего процесса (даже если значение корреляции изменяется). Подумайте о том, что это делает геометрически, и вы поймете название процедуры! $\alpha$ $p$

Явная форма (абсолютной) корреляции

Давайте сосредоточимся на термине в знаменателе, поскольку числитель уже находится в требуемой форме. У нас есть

⟨ Y - U (α), Y - U (α) ⟩ знак равно ⟨ (1 - α) Y + α Y - U (α), (1 - α) Y + α Y - U (α) ⟩,

$\langle y - u(\alpha), y - u(\alpha) \rangle = \langle (1-\alpha) y + \alpha y - u(\alpha), (1-\alpha) y + \alpha y - u(\alpha) \rangle .$

Подставляя в и используя линейность внутреннего произведения, получим $u(\alpha) = \alpha \hat{y}$

⟨ y - u (α), y - u (α) ⟩ = (1 - α)^{2} ⟨ y, y ⟩ + 2 α (1 - α) ⟨ y, y - \hat{y} ⟩ + α^{2} ⟨ y - \hat{y}, y - \hat{y} ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = (1-\alpha)^2 \langle y, y \rangle + 2\alpha(1-\alpha) \langle y, y - \hat{y} \rangle + \alpha^2 \langle y-\hat{y}, y-\hat{y} \rangle .$

Соблюдайте это

$\langle y, y \rangle = N$ по предположению,
$\langle y, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y} \rangle + \langle \hat{y}, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y}\rangle$ , применяя лемму ортогональности (еще раз) ко второму члену в середине; а также,
$\langle y - \hat{y}, y - \hat{y} \rangle = \mathrm{RSS}$ по определению.

Собрав все это вместе, вы заметите, что мы получаем

{\hat{ρ}}_{j} (α) = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} + \frac{α (2 - α)}{N} R S S}} = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} (1 - \frac{R S S}{N}) + \frac{1}{N} R S S}}

$\hat{\rho}_j(\alpha) = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 + \frac{\alpha(2-\alpha)}{N} \mathrm{RSS}}} = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 (1 - \frac{\mathrm{RSS}}{N}) + \frac{1}{N} \mathrm{RSS}}}$

Чтобы обернуть вещи, и поэтому ясно, что монотонно уменьшается в и как . $1 - \frac{\mathrm{RSS}}{N} = \frac{1}{N} (\langle y, y, \rangle - \langle y - \hat{y}, y - \hat{y} \rangle ) \geq 0$ $\hat{\rho}_j(\alpha)$ $\alpha$ $\hat{\rho}_j(\alpha) \downarrow 0$ $\alpha \uparrow 1$

Эпилог : сконцентрируйтесь на идеях здесь. Там действительно только один. Ортогональность лемма делает почти всю работу за нас. Все остальное - это алгебра, нотация и умение использовать последние два.

— кардинальный
источник

@ cardinal, +1. Ответ на несколько лучше, чем вопрос.

— mpiktas

@cardinal, вы можете изменить ссылку на Amazon или какой-либо другой сайт. Я думаю, что ссылка на полную книгу может вызвать некоторые проблемы с авторским правом.

— mpiktas

@mpiktas, нет. Нет проблем с авторским правом. Это официальный сайт книги. Авторы получили разрешение от Springer на бесплатное размещение PDF-файла в Интернете. (См. Примечание об этом на сайте.) Я думаю, что они получили идею от Стивена Бойда и его текста « Выпуклая оптимизация» . Надеемся, что такая тенденция наберет обороты в течение следующих нескольких лет. Наслаждайтесь!

— кардинал

@ Cardinal, ооо огромное спасибо! Это очень великодушно от авторов.

— mpiktas

@mpiktas, безусловно, самая популярная книга в серии Springer по статистике. Это выглядит хорошо на iPad. Что напоминает мне --- я должен загрузить текст Бойда на него также. Приветствия.

— кардинал