Почему определение непротиворечивой оценки таково, как оно есть? Как насчет альтернативных определений согласованности?

Цитата из Википедии:

В статистике непротиворечивая оценка или асимптотически непротиворечивая оценка является оценщиком - правилом для вычисления оценок параметра обладающим тем свойством, что, поскольку число используемых точек данных увеличивается бесконечно, результирующая последовательность оценок сходится по вероятности к . $θ^*$ $θ^*$

Чтобы сделать это утверждение точным, пусть $\theta^*$ будет значением истинного параметра, который вы хотите оценить, и пусть $\hat\theta(S_n)$ будет правилом для оценки этого параметра как функции данных. Тогда определение согласованности оценщика можно выразить следующим образом:

\underset{N \to \infty}{Ит} п р [| \hat{θ (S_{N}}) - θ^{*} | \geq ε] знак равно 0

$\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0$

мой вопрос на первый взгляд кажется поверхностным, но он таков: почему слово «согласованность / согласованность» использовалось для описания такого поведения оценщика?

Причина, по которой я забочусь об этом, заключается в том, что для меня интуитивно слово «согласованный» означает нечто иное (или, по крайней мере, мне кажется, что оно отличается, может быть, они могут быть показаны равными). Позвольте мне рассказать вам, что это значит на примере. Скажите «вы» неизменно «хороши» (для некоторого определения «хорошо»), а значит «последовательно» означает, что каждый раз, когда у вас есть шанс доказать / показать мне, что вы хороший, вы действительно доказываете, что вы хороший, каждый раз (или, по крайней мере, большую часть времени).

Давайте применим мою интуицию, чтобы определить согласованность оценки. Пусть «вы» - функция, вычисляющая и пусть «хорошо» означает, насколько вы далеки от истинной оценки (хорошо, в смысле , почему бы и нет). Тогда лучшим определением согласованности будет: $\hat{\theta}$ $\theta^*$ $l_1$

\forall N, \forall S_{N}, п р [| \hat{θ (S_{N}}) - θ^{*} | \geq ε] < δ

$\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

Несмотря на то, что это определение может быть менее полезным, оно имеет для меня больше смысла в том, как я определяю последовательность, потому что для любых наборов тренировок / выборок, которые вы добавляете моей оценщике , я смогу сделать хорошая работа, т.е. я буду последовательно делать хорошо. Я знаю, что это немного нереально сделать это для всех n (вероятно, невозможно), но мы можем исправить это определение, сказав: $\hat\theta$

\exists n_{0}, \forall n \geq n_{0}, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

т. е. для достаточно большого n наша оценка не будет хуже, чем (то есть не более чем в от «истины») от истинного ( пытается захватить ту интуицию, которая вам нужна по крайней мере несколько примеров для изучения / оценки чего-либо, и как только вы достигнете этого числа, ваш оценщик будет в большинстве случаев преуспевать, если он будет соответствовать тому, как мы его пытаемся определить). $\epsilon$ $\epsilon$ $\theta^*$ $n_0$

Тем не менее, предыдущее определение является сильным, возможно, мы могли бы позволить нам иметь низкую вероятность быть далеким от для большинства обучающих наборов размером (то есть не требовать этого для всех , но более распределение или что-то подобное). Таким образом, у нас будет очень большая ошибка только очень редко для большинства образцов / обучающих наборов, которые у нас есть. $\theta^*$ $n \geq n_0$ $S_n$ $S_n$

В любом случае, мой вопрос заключается в том, являются ли эти предлагаемые определения «согласованности» фактически такими же, как «официальное» определение согласованности, но эквивалентность трудно доказать? Если вы знаете доказательство, пожалуйста, поделитесь им! Или моя интуиция полностью отключена, и есть ли более глубокая причина для выбора согласованности определения таким, каким оно обычно определяется? Почему («официальная») последовательность определяется так, как она есть?

Некоторые из моих мыслей о том, что кандидат является доказательством некой эквивалентности или, возможно, сходства между моим понятием согласованности и принятым понятием согласованности, могут заключаться в том, чтобы разгадать определение предела в официальном определении согласованности с помощью определение лимита. Тем не менее, я не был уверен на 100%, как это сделать, и даже если бы я попытался, официальное определение согласованности, похоже, не учитывает разговоры обо всех потенциальных наборах обучения / выборки. Поскольку я считаю, что они эквивалентны, является ли приведенное мною официальное определение неполным (то есть почему в нем не говорится о наборах данных, которые мы могли бы, или обо всех различных наборах данных, которые могли бы генерировать наши наборы выборок)? $(\epsilon, \delta)-$

Одна из моих последних мыслей состоит в том, что любое определение, которое мы предоставляем, также должно быть точным в отношении того, о распределении вероятностей мы говорим, это или . Я думаю, что кандидат также должен быть точным, если что бы он ни гарантировал, если он действительно гарантирует, что это будет для некоторого фиксированного распределения или для всех возможных распределений для учебных наборов ... правильно? $P_x$ $P_{S_n}$

machine-learning mathematical-statistics consistency

— Чарли Паркер
источник

(+1) Креативное мышление. Спасибо, что поделились этим с нами. Я верю, что смогу представить некоторые мысли в качестве ответа здесь.

— Алекос Пападопулос

Первое определение малопригодно, поскольку требует высокой точности всех оценок. Второй не имеет смысла, потому что он пытается контролировать одну логическую переменную с несколькими квантификаторами.

n

$n$

— whuber

Рассмотрим второе предварительное заявление ФП, слегка измененное,

\begin{matrix} (1) & \forall θ \in Θ, ϵ > 0, δ > 0, S_{n}, \exists N_{0} (θ, ε, δ) : \forall N \geq N_{0}, п_{N} [| \hat{θ} (S_{N}) - θ^{*} | \geq ε] < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n, \exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\P_n\big[|{\hat \theta(S_{n}}) - \theta^*|\geq \epsilon \big] < \delta \tag{1}$

Мы изучаем ограниченную в последовательность действительных чисел $[0,1]$

{п_{N} [| \hat{θ} (S_{N}) - θ^{*} | \geq ε]}

$\big\{ P_n\big[|{\hat\theta(S_{n}}) - \theta^*|\geq \epsilon \big]\big\}$

индексируется . Если эта последовательность имеет предел как , назовите его просто , у нас будет $n$ $n\rightarrow \infty$ $p$

\begin{matrix} (2) & \forall θ \in Θ, ε > 0, δ > 0, S_{N}, \exists N_{0} (θ, ε, δ) : \forall N \geq N_{0}, | п_{N} [| \hat{θ (S_{N}}) - θ^{*} | \geq ε] - п | < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n,\,\exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\\Big| P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon \big] -p\Big|< \delta \tag{2}$

Поэтому, если мы предполагаем (или требуем) , мы, по существу, предполагаем (или требуем), что предел как существует и равен нулю, . $(1)$ $n\rightarrow \infty$ $p=0$

Таким образом, читается как "предел как равен ". Какое именно текущее определение согласованности (и да, оно охватывает «все возможные образцы») $(1)$ $P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon\big]$ $n\rightarrow \infty$ $0$

Таким образом, представляется, что ОП, по сути, предложил альтернативное выражение для точно такого же свойства, а не другого свойства оценщика.

ADDENDUM (забыл часть истории)

В своих «Основах теории вероятностей» (1933) Колмогоров упоминает в сноске, что (концепция сходимости по вероятности)

«... это из-за Бернулли; его совершенно общий подход был введен Е. Е. Слуцким».

(в 1925 г.) Работа Слуцкого на немецком языке - может быть даже вопрос о том, как немецкое слово было переведено на английский язык (или термин, используемый Бернулли). Но не пытайтесь читать слишком много в слове.

— Алекос Пападопулос
источник