Если усадка применяется умным способом, всегда ли она работает лучше для более эффективных оценщиков?

Предположим, у меня есть два оценщика и которые являются согласованными оценками одного и того же параметра и такого, что с в смысле psd. Таким образом, асимптотически более эффективен, чем . Эти две оценки основаны на различных функциях потерь. $\widehat{\beta}_1$ $\widehat{\beta}_2$ $\beta_0$

\sqrt{n} ({\hat{β}}_{1} - β_{0}) \overset{d}{\to} N (0, V_{1}), \sqrt{n} ({\hat{β}}_{2} - β_{0}) \overset{d}{\to} N (0, V_{2})

$\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)$

V_{1} \leq V_{2}

$V_1 \leq V_2$

{\hat{β}}_{1}

$\widehat{\beta}_1$

{\hat{β}}_{2}

$\widehat{\beta}_2$

Теперь я хочу найти некоторые методы сжатия, чтобы улучшить свойства конечных выборок моих оценок.

Предположим, что я нашел метод сжатия, который улучшает оценку в конечном образце и дает мне значение MSE, равное . Означает ли это, что я могу найти подходящую технику сжатия для применения к , которая даст мне MSE не больше, чем ? $\widehat{\beta}_2$ $\widehat{\gamma}_2$ $\widehat{\beta}_1$ $\widehat{\gamma}_2$

Другими словами, если усадка применяется разумно, всегда ли она работает лучше для более эффективных оценщиков?

— Алик
источник

Ответы:

Позвольте мне предложить немного скучный контрпример. Скажем, что не только асимптотически более эффективен, чем , но и достигает нижней границы Крамера Рао. Умная техника сжатия для будет такой: с помощью . Асимптотическая дисперсия равна где последнее равенство использует лемму в работе Хаусман в . У нас есть $\hat{\beta}_1$ $\hat{\beta}_2$ $\hat{\beta}_2$

{\hat{β}}_{2}^{*} = w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}

$\hat{\beta}_2^\ast = w \hat{\beta}_2 + (1 - w) \hat{\beta}_1$

w \in (0, 1)

$w\in(0,1)$

{\hat{β}}_{2}^{*}

$\hat{\beta}_2^\ast$

V^{*} = A v a r (w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}) = A v a r (w ({\hat{β}}_{2} - {\hat{β}}_{1}) + {\hat{β}}_{1}) = V_{1} + w^{2} (V_{2} - V_{1})

$V^\ast = \mathbb{Avar}(w \hat{\beta}_2 + (1 - w) \hat{\beta}_1) = \mathbb{Avar}(w (\hat{\beta}_2 - \hat{\beta}_1) + \hat{\beta}_1 ) = V_1 + w^2 (V_2 - V_1)$

V_{2} - V^{*} = V_{2} (1 - w^{2}) - V_{1} (1 - w^{2}) \geq 0

$V_2 - V^\ast = V_2(1-w^2) - V_1(1-w^2) \geq 0$ поэтому существует асимптотическое улучшение риска (нет условий смещения). Таким образом, мы нашли метод сжатия, который дает некоторые асимптотические (и, следовательно, надеюсь, конечный образец) улучшения по сравнению с . Тем не менее, нет аналогичной оценки усадки которая следует из этой процедуры.

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}^{*}

$\hat{\beta}_1^\ast$

Дело здесь, конечно, в том, что сжатие выполняется в направлении эффективного оценщика и, следовательно, не применимо к самому эффективному оценщику. Это кажется довольно очевидным на высоком уровне, но я думаю, что в конкретном примере это не так очевидно ( MLE и метод оценки моментов для равномерного распределения могут быть примером?).

— Матиас Шмидтблайхер
источник

Спасибо за интересный пример! (+1) Однако, мне не ясно, что это следует рассматривать как контрпример: он асимптотический и не показывает, что нельзя улучшить, чтобы иметь такой же или более низкий риск. (Фактически, ваш автоматически в лучшем случае имеет тот же риск, что и .) Чтобы предоставить контрпример, риск изменения должен быть меньше, чем риск , и не ясно, что это возможно с этой схемой.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

— user795305

Спасибо и пункт (ы) приняты. Позвольте мне, однако, отметить, что нигде в вопросе не было указано, что MSE модифицированного должно быть ниже, чем у . Таким образом, является допустимым методом сжатия в этом контексте. Но я согласен, что это только частичный ответ, и я с нетерпением жду возможности узнать, что другие люди скажут по этому вопросу.

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}

$\hat{\beta}_1$

{\hat{β}}_{2}^{⋆}

$\hat{\beta}^\star_2$

— Матиас

В абзаце, который начинается «Предположим, я нашел ...», OP, кажется, указывает это. Я неправильно понимаю? В дальнейшем пусть звезды обозначают модифицированные оценки так, что для некоторых (возможно, усадочных) функций . Предположим, мы находим так, что . В указанном абзаце OP спрашивает, можем ли мы найти какой-нибудь для такого .

{\hat{β}}_{j}^{*} = f_{j} ({\hat{β}}_{j})

$\hat\beta_j^* = f_j(\hat\beta_j)$

f_{j}

$f_j$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

r i s k ({\hat{β}}_{2}) \geq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_2) \ge risk(\hat\beta_2^*)$

f_{1}

$f_1$

r i s k ({\hat{β}}_{1}^{*}) \leq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_1^*) \le risk(\hat\beta_2^*)$

— user795305

Понимаю. Если это вопрос, то - просто тождество, и ответ в этом примере положительный. Я читаю вопрос как «Если мы можем найти функцию чтобы , есть ли существует так что ? "

f_{1}

$f_1$

f (β, x)

$f(\beta, x)$

r i s k (f ({\hat{β}}_{2}, x)) < r i s k ({\hat{β}}_{2})

$risk(f(\hat{\beta}_2,x)) < risk(\hat{\beta}_2)$

g (β, x)

$g(\beta, x)$

r i s k (g ({\hat{β}}_{1}, x)) < r i s k ({\hat{β}}_{1})

$risk(g(\hat{\beta}_1,x)) < risk(\hat{\beta}_1)$

— Матиас

спасибо за то, что поделились этими кредитами, хотя я и не ответил на твой вопрос ...

— Матиас

-2

Это интересный вопрос, в котором я хочу вначале указать на некоторые основные моменты.

Две оценки соответствуют
$\hat{\beta}_1$ более эффективен, чем так как он меньше вариаций $\hat\beta_2$
Функции потери не совпадают
один метод усадки применяется к одному так, чтобы он уменьшал изменение, которое само по себе в итоге дает лучшую оценку
Вопрос : Другими словами, если усадка применяется умно, всегда ли она работает лучше для более эффективных оценщиков?

Фундаментально, можно улучшить оценку в определенной структуре, такой как беспристрастный класс оценок. Однако, как вы указали, различные функции потерь усложняют ситуацию, поскольку одна функция потерь может минимизировать квадратичные потери, а другая минимизирует энтропию. Более того, использование слова «всегда» очень сложно, поскольку, если один оценщик является лучшим в классе, вы не можете претендовать на лучшую оценку, логически говоря.

Для простого примера (в той же самой структуре), давайте две оценки, а именно, Мост ( регрессия с нормы) и Лассо (штраф штрафовал за первую норму вероятности) и разреженный набор параметров, а именно , линейная модель , нормальность члена ошибки, , известная , квадратичная функция потерь (ошибки наименьших квадратов) и независимость ковариат по . Давайте выберем для для первой оценки и для второй оценки. Тогда вы можете улучшить оценки, выбрав $l_p$ $\beta$ $y=x\beta+e$ $e\sim N(0,\sigma^2<\infty)$ $\sigma$ $x$ $l_p$ $p=3$ $p=2$ $p\rightarrow 1$ что в итоге дает лучшую оценку с меньшей дисперсией. Тогда в этом примере есть шанс улучшить оценку.

Итак, мой ответ на ваш вопрос - да, учитывая, что вы принимаете ту же группу оценок и ту же функцию потерь, а также предположения.

— TPArrow
источник

мне не понятно, что вы имеете в виду под . Учитывая две оценки (скажем, из-за наличия и в регуляризации наименьших квадратов , как вы обсуждали в своем ответе), вопрос о способах обработки этих оценок (скажем, с помощью сжатия). В частности, он спрашивает, существуют ли методы, которые могут привести к аналогичному улучшению (с точки зрения MSE) через согласованные и асимптотически нормальные оценки. Мне не ясно, что ваш ответ должен передать, связанный с этим.

p \to 1

$p \to 1$

p = 3

$p=3$

p = 2

$p=2$

ℓ_{p}

$\ell_p$

— user795305

@Ben Спасибо. вопрос касается усадки, и я попытался привести простой пример, где применяется усадка путем наложения норму на оценщик. Я вижу это довольно связанным. PS: ( норма наказывается вероятностью) расшифровывается как оператор наименьшей абсолютной усадки и выбора

l_{p}

$l_p$

l_{1}

$l_1$

— TPArrow,

Это все еще не совсем понятно для меня. Вы предлагаете, чтобы мы взяли начальные оценки и а затем оценили проксимальный оператор , чтобы новые оценки были , для ? Если да, не могли бы вы предоставить доказательства (или какой-либо другой аргумент) для ваших утверждений относительно улучшения MSE? Ранее я пытался подчеркнуть, что вопрос заключается в оценках постобработки - какова ваша оценка для постобработки ?

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

ℓ_{p}

$\ell_p$

{\hat{α}}_{j}^{p} = \arg min_{α} ‖ α - {\hat{β}}_{j} ‖_{2}^{2} + λ ‖ α ‖_{p}

$\hat\alpha^p_j = \arg\min_\alpha \|\alpha-\hat\beta_j\|_2^2 + \lambda \|\alpha\|_p$

j \in {1, 2}

$j \in \{1,2\}$

p = 2, 3

$p=2,3$

— user795305

спасибо @Ben, я чувствую, что у нас нет консенсуса в определении усадки. Вы воспринимаете это как пост-процесс, а я как встроенную обработку. Я думаю, что мы оба правы, поскольку вопрос не учитывает тип усадки. PS: я думаю, что вы имеете в виду под усадкой, как с жестким порогом.

— TPArrow

Усадка может быть как встроенной, так и последующей обработкой. Примеры, которые вы упомянули в своем ответе, касаются «усадки в потоке», а вопрос задается о «усадке после обработки». Обратите внимание, что в этом вопросе приводятся два оценщика и , а затем запрашивается метод сжатия для применения к или . Я думаю, что было бы целесообразно перечитать вопрос в свете этого.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

— user795305