Неравенство Oracle: в основных терминах

Я просматриваю статью, в которой используется неравенство оракула, чтобы что-то доказать, но я не могу понять, что он даже пытается сделать. Когда я искал в Интернете информацию о «Неравенстве Oracle», некоторые источники указали мне на статью «Кандес, Эммануэль Дж.« Современная статистическая оценка через неравенства оракула ». "который можно найти здесь https://statweb.stanford.edu/~candes/papers/NonlinearEstima.pdf . Но эта книга кажется мне слишком тяжелой, и я считаю, что у меня нет некоторых предпосылок.

Мой вопрос: как бы вы объяснили, что такое неравенство оракула для не математического специалиста (включая инженеров)? Во-вторых, как бы вы порекомендовали им пройти предварительные условия / темы, прежде чем пытаться изучать что-то вроде вышеупомянутой книги.

Я настоятельно рекомендую ответить на этот вопрос тому, кто обладает конкретным пониманием и большим опытом работы в области статистики высокого уровня.

— Уолкотт
источник

Может ли кто-нибудь с более чем 1k репутацией предложить щедрость по этому вопросу. Это действительно помогло бы. Я не думаю, что обычные пользователи резюме были бы знакомы с этой концепцией, поскольку большинство пользователей используют статистику для анализа данных, а не теоретического анализа, хотя, как сообщество, полностью основанное на статистике, я считаю, что должен быть кто-то, кто мог бы адекватно ответить на это. Я считаю, что этот вопрос не получил достаточного внимания.

— Уолкотт

Я думал об одном и том же вопросе

— Jeza

«Определение», приведенное на стр. 22 ссылки «Неравенство оракула связывает эффективность реального оценщика с идеальной оценкой, которая опирается на совершенную информацию, предоставленную оракулом, и которая недоступна на практике». Разве это не передает вам суть определения?

— Марк Л. Стоун

@ Марк Л. Камень для меня, это не так

— Jeza

Даже если вы посмотрите на пример и обсуждение, приведенные в нескольких предыдущих предложениях, т. Е. На утверждение и обсуждение теоремы 4.1, как на пример неравенства оракула? С точки зрения непрофессионала: ну и дела, мы не знаем оптимальное значение (предоставленное оракулом) коэффициента усадки, которое мы должны использовать. Но зная, что оптимальное значение коэффициента усадки может улучшить MSE не более чем на 2 по сравнению с отсутствием оптимального коэффициента усадки от оракула.

— Марк Л. Стоун

Я постараюсь объяснить это в линейном случае. Рассмотрим линейную модель Когда (число независимых переменных меньше или равно количеству наблюдений) и расчетная матрица имеет полный ранг, наименьший квадрат оценки равен и ошибка прогноза из которого мы можем вывести Это означает, что каждый параметр оценивается с квадратом точностиТаким образом, ваша общая точность

Y_{i} = \sum_{j = 1}^{p} β_{j} X_{i}^{(j)} + ϵ_{i}, i = 1, . . ., n .

$Y_i=\sum_{j=1}^{p} \beta_jX_{i}^{(j)}+\epsilon_i, i=1,...,n.$

p \leq n

$p \leq n$

b

$b$

\hat{b} = (X^{T} X)^{- 1} X^{T} Y

$\hat{b}=(X^TX)^{-1}X^TY$

\frac{‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{σ^{2}}

$\dfrac{\| X(\hat{b}-\beta^0) \|_2^2}{\sigma^2}$

\frac{E ‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{n} = \frac{σ^{2}}{n} p .

$\dfrac{ \mathbb{E} \| X(\hat{b}-\beta^0) \|_2^2}{n}=\dfrac{\sigma^2}{n}p.$

β_{j}^{0}

$\beta_j^0$

σ^{2} / n, j = 1, . . ., p .

$\sigma^2/n, j=1,...,p.$

(σ^{2} / n) p .

$(\sigma^2/n)p.$

Что теперь, если число наблюдений меньше числа независимых переменных ? Мы «верим», что не все наши независимые переменные играют роль в объяснении , поэтому только некоторые, скажем, , отличны от нуля. Если бы мы знали, какие переменные отличны от нуля, мы могли бы пренебречь всеми остальными переменными, и с помощью приведенного выше аргумента общая квадратичная точность была бы $(p>n)$ $Y$ $k$ $(\sigma^2/n)k.$

Поскольку набор ненулевых переменных неизвестен, нам нужно некоторое наказание за регуляризацию (например, ) с параметром регуляризации (который контролирует количество переменных). Теперь вы хотите получить результаты, аналогичные рассмотренным выше, вы хотите оценить квадратичную точность. Проблема в том, что ваша оптимальная оценка теперь зависит от . Но важным фактом является то, что при правильном выборе вы можете получить верхнюю границу ошибки предсказания с высокой вероятностью, то есть «неравенство оракула» Обратите внимание на дополнительный фактор $l_1$ $\lambda$ $\hat{\beta}$ $\lambda$ $\lambda$

\frac{‖ X (\hat{β} - β^{0}) ‖_{2}^{2}}{n} \leq c o n s t . \frac{σ^{2} \log p}{n} k .

$\dfrac{\| X(\hat{\beta}-\beta^0) \|_2^2}{n} \leq const.\dfrac{\sigma^2\log p}{n}k.$

\log p

$\log p$ , которая является ценой за незнание множества ненулевых переменных. « » зависит только от или .

c o n s t .

$const.$

p

$p$

n

$n$

— Дато Гоголашвили
источник

Строго говоря, нам не нужно, чтобы количество наблюдений было меньше количества независимых переменных, чтобы все последующие части были правильными.

— jbowman

Можете ли вы объяснить, как получилось уравнение ожидания (уравнение от второго до последнего) и неравенство (последнее уравнение)?

— user13985

\frac{‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{σ^{2}}

$\dfrac{\| X(\hat{b}-\beta^0) \|_2^2}{\sigma^2}$ имеет распределение хи-квадрат с p степенями свободы, поэтому его ожидание равно . Последнее неравенство является неравенством оракула. Доказательство не так тривиально, я могу рекомендовать эту книгу: Статистика для многомерных данных: методы, теория и приложения, глава 6.

(σ^{2} / n) p

$(\sigma^2/n)p$

— Дато Гоголашвили