Как объяснить беспристрастную оценку непрофессионалу?

10

Предположим, что является объективной оценкой для . Тогда, конечно, . $\hat{\theta}$ $\theta$ $\mathbb{E}[\hat{\theta} \mid \theta] = \theta$

Как можно объяснить это непрофессионалу? В прошлом я говорил, что если вы усредняете набор значений , а размер выборки увеличивается, вы получаете лучшее приближение . $\hat{\theta}$ $\theta$

Для меня это проблематично. Я думаю, что я на самом деле описываю здесь этот феномен асимптотически беспристрастного, а не исключительно беспристрастного, то есть где , вероятно, зависит от .

lim_{n \to \infty} E [\hat{θ} ∣ θ] = θ,

$\lim_{n \to \infty}\mathbb{E}[\hat{\theta} \mid \theta] = \theta\text{,}$

\hat{θ}

$\hat{\theta}$

n

$n$

Итак, как объяснить беспристрастную оценку непрофессионалу?

— Кларнетист
источник

2

Это способ сделать правильную оценку: обычно она не совсем правильная, но в целом она не дает завышенных оценок чаще, чем заниженных. Я понимаю, что это делает звучание более похожим на то, что

θ

$\theta$ является медианой

\hat{θ}

$\hat \theta$ чем средним, но я думаю, что это отражает существенную точку.

— jwimberley

3

Мне нравится шутка «Охота на трех статистиков» (версия здесь ) для этого ...

— Бен Болкер,

2

Ваше объяснение - это закон больших чисел, он не имеет ничего общего с непредвзятостью.

— Сиань

@ Сиань: Если бы оценка была предвзятой, предел не был бы .

θ

$\theta$

— user2357112 поддерживает Monica

@ user2357112: в моем понимании (и других, как показано в ответах до сих пор), поскольку размер выборки становится больше, означает, что при до бесконечности, то есть оценка, основанная на наблюдениях. Теперь я вижу, что предложение можно интерпретировать по-разному.

{\hat{θ}}_{n}

$\hat\theta_n$

n

$n$

n

$n$

— Сиань

14

Технически то, что вы описываете, когда говорите, что ваша оценка приближается к истинному значению при увеличении размера выборки, - это (как уже упоминалось) согласованность или сходимость статистических оценок. Эта сходимость может быть либо сходимостью по вероятности, которая говорит, что для каждого , или почти верная сходимость, которая говорит, что . Обратите внимание, как предел на самом деле внутри $\lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \epsilon) = 0$ $\epsilon > 0$ $P(\lim_{n \to \infty} |\hat{\theta}_n - \theta| > \epsilon) = 0$ вероятность во втором случае. Оказывается, что последняя форма сходимости сильнее, чем другая, но обе они означают, по сути, одно и то же, то есть оценка имеет тенденцию становиться все ближе и ближе к тому, что мы оцениваем, по мере того, как мы собираем больше выборок.

Тонкое моментом здесь является то, что даже когда либо по вероятности или почти наверняка, это не верно вообще , что , поэтому последовательность не подразумевает асимптотическую непредвзятость, как вы предлагаете. Вы должны быть осторожны при переходе от последовательностей случайных величин (которые являются функциями) к последовательностям ожиданий (которые являются интегралами). $\hat{\theta}_n \to \theta$ $\lim_{n \to \infty} \text{E}(\hat{\theta}_n) = \theta$

Если не принимать во внимание все технические аспекты, это означает, что . Поэтому, когда вы объясняете это кому-то, просто скажите, что если эксперимент повторяется в идентичных условиях много раз, то среднее значение оценки будет близко к истинному значению. $\text{E}(\hat{\theta}_n) = \theta$

— dsaxton
источник

5

Ваше видение мирянина весьма достойно восхищения. Он знает, что такое «сходимость по вероятности», «как сходимость», ограничивает ... Это человек из будущего.

— Аксакал

2

Я не думаю, что непрофессионал знает что-либо из этого, я пытался исправить некоторые недоразумения в оригинальном посте. Мое предложение относительно того, как объяснить вещи непрофессионалу, содержится в последнем абзаце.

— dsaxton

последний абзац, однако, перепутывает концепцию смещения с непротиворечивостью оценки, которая, вероятно, была одной из путаницы OP с самого начала.

— Аксакал

3

Как же так? Повторение эксперимента в идентичных условиях означало бы, что размер выборки фиксирован, поэтому мы, очевидно, не говорим о согласованности.

— dsaxton

1

Хорошо, вы правы в этом, но тогда это означает, что вы привели частое представление о вероятности

— Аксакал

9

Я не уверен, если вы путаете последовательность и непредвзятость.

Согласованность: чем больше размер выборки, тем меньше дисперсия оценки.

Зависит от размера выборки

Объективность: ожидаемое значение оценки равно истинному значению параметров

Не зависит от размера выборки

Итак, ваше предложение

если вы усредните набор значений , так как размер выборки увеличивается, вы получите лучшее приближение . $\hat\theta$ $\theta$

Не является правильным. Даже если размер выборки становится бесконечным, несмещенная оценка останется непредвзятой оценкой, например, если вы оцените среднее значение как «среднее +1», вы можете добавить к своей выборке один миллиард наблюдений, и ваша оценка все равно не даст вам истинного значения.

Здесь вы можете найти более глубокую дискуссию о разнице между последовательностью и непредвзятостью.

В чем разница между последовательной оценкой и объективной оценкой?

— Ферди
источник

2

На самом деле я ничего не знаю о последовательности, но тем не менее спасибо.

— Кларнетист

1

@ Clarinetist Согласованность , возможно, является наиболее важным свойством оценщика: при наличии достаточного количества данных вы будете произвольно приближены к правильному ответу.

— Мэтью Ганн

7

@Ferdi уже дал четкий ответ на ваш вопрос, но давайте сделаем его немного более формальным.

Пусть быть ваша выборка независимых и одинаково распределенных случайных величин с распределением . Вы заинтересованы в оценке неизвестного, но фиксированного количества , используя оценку являющуюся функцией . Поскольку является функцией случайных величин, оцените $X_1,\dots,X_n$ $F$ $\theta$ $g$ $X_1,\dots,X_n$ $g$

{\hat{θ}}_{n} = g (X_{1}, \dots, X_{n})

$\hat\theta_n = g(X_1,\dots,X_n)$

также случайная величина. Мы определяем смещение как

b i a s ({\hat{θ}}_{n}) = E_{θ} ({\hat{θ}}_{n}) - θ

$\mathrm{bias}(\hat\theta_n) = \mathbb{E}_\theta(\hat\theta_n) - \theta$

Оценщик объективен, когда . $\mathbb{E}_\theta(\hat\theta_n) = \theta$

Говоря простым языком: мы имеем дело со случайными переменными , поэтому, если они не вырожденные , если мы взяли разные выборки, мы могли бы ожидать наблюдения разных данных и столь разных оценок. Тем не менее, мы можем ожидать, что для разных выборок «в среднем» оценочный будет «правильным», если оценка будет объективной. Так что это было бы не всегда правильно, но «в среднем» было бы правильно. Это просто не всегда может быть «правильным» из-за случайности, связанной с данными. $\hat\theta_n$

Как уже отмечали другие, тот факт, что ваша оценка становится «ближе» к оценочной величине по мере роста вашей выборки, то есть что сходится по вероятности

{\hat{θ}}_{n} \overset{P}{\to} θ

$\hat\theta_n \overset{P}{\to} \theta$

имеет отношение к последовательности , а не объективности. Только объективность ничего не говорит нам о размере выборки и ее связи с полученными оценками. Более того, объективные оценки не всегда доступны и не всегда предпочтительнее, чем объективные . Например, после рассмотрения компромисса с отклонением от отклонения вы можете рассмотреть возможность использования оценщика с большим отклонением, но с меньшим отклонением - так что «в среднем» оно будет дальше от истинного значения, но чаще (меньшее отклонение) оценки будут быть ближе к истинному значению, тогда в случае объективной оценки.

— Тим
источник

(+1): очень хороший момент, заключающийся в том, что есть редко доступные объективные оценки. И упомянув оппозицию смещения / дисперсии.

— Сиань

2

Во-первых, вы должны отличать предвзятость от статистической предвзятости, особенно для непрофессионала.

Выбор, скажем, использования медианы, среднего значения или режима в качестве оценщика для среднего населения , часто содержит политическую, религиозную или научную предубежденность теории. Вычисление того, какая оценка является наилучшей формой среднего значения, отличается от арифметики, которая влияет на статистическое смещение.

Как только вы преодолели смещение выбора метода, вы можете устранить потенциальные смещения в методе оценки. Сначала вы должны выбрать метод, который может иметь смещение, и механизм, который легко ведет к этому смещению.

Может быть проще использовать точку зрения «разделяй и властвуй», где это становится очевидным, когда размер выборки уменьшается, оценка становится явно смещенной. Например, коэффициент n-1 (против 'n') в оценках разброса выборки становится очевидным, когда n падает с 3 до 2 к 1!

Все зависит от того, насколько «лежал» человек.

— Филип Окли
источник

Я боюсь, что вы можете говорить о различных уклонах, о которых идет речь. Не могли бы вы поподробнее сказать, что такое предвзятость? Вы пишете о «потенциальных отклонениях в методе оценки», и это, похоже, не соответствует определению смещения (приведенному в вопросе и ответах выше). В конце концов, это сбивает с толку ваш ответ ...

— Тим

@Tim, первый шаг должен был просто гарантировать, что человеческие предубеждения были покрыты. Вторым шагом было (и частично следует за этапом 1), чтобы убедиться, что учение непрофессионала не было уже, что метод X (беспристрастный) должен был быть выбран. Например, стандартное отклонение составляет 1 / n * sum ((x-mean) ^ 2), но это (тщательно) не различает популяцию и выборку. Большинство «мирян» обучают бездумной 1 / (N-1) версии для образца. Если у вас есть только один метод, у вас (у непрофессионала) нет выбора, так что смещение оценщика не может быть проблемой ... Это шаг Крюгера-Даннинга.

— Филип Окли