Среднее из начальной загрузки выборки против статистики выборки


18

Скажем, у меня есть образец и образец начальной загрузки из этого образца для стастита (например, среднее значение). Как все мы знаем, эта самозагрузки образец оценивает на распределение выборки из оценки из статистики.χ

Теперь, является ли среднее значение этой выборки начальной загрузки лучшей оценкой статистики популяции, чем статистика исходной выборки ? При каких условиях это будет иметь место?


2
Среднее значение образца начальной загрузки является средним значением образца, и в этом случае вам не нужен образец начальной загрузки.
Сиань

1
Спасибо @ Сиань, я не уверен, что я следую. Среднее значение образца начальной загрузки может численно отличаться от среднего значения образца. Вы пытаетесь сказать, что эти два теоретически эквивалентны? Можете ли вы подтвердить на обоих концах?
Амелио Васкес-Рейна

2
Давайте проясним нашу терминологию: «пример начальной загрузки» может относиться либо к конкретной выборке с заменой из данных, либо к (многомерной) случайной переменной, из которой такая выборка будет считаться одной реализацией. Вы правы в том, что среднее значение реализации может отличаться от среднего значения данных, но @ Xi'an предоставляет более релевантное наблюдение о том, что среднее значение случайной величины (которая по определению является начальной оценкой среднего значения совокупности ) должно совпадать со средним значением данных.
whuber

1
Тогда ваш вопрос почти идентичен stats.stackexchange.com/questions/126633/… ; единственное отличие состоит в том, что реализации примера начальной загрузки могут перекрываться, но анализ, приведенный в ответе, легко переносится в ситуацию начальной загрузки с тем же результатом.
whuber

1
Я вижу соединение @whuber, хотя в начальной загрузке есть «подмножества с заменой», и реализации могут перекрываться, как вы сказали. Я полагаю, что распределение (например, псевдослучайность), используемое для получения повторных выборок в начальной загрузке, также может повлиять на смещение оценки из выборки начальной загрузки. Возможно, ответ заключается в том, что для всех практических вопросов разница незначительна. Это то, что вопрос после: условия, тонкости и разница на практике.
Амелио Васкес-Рейна

Ответы:


19

Давайте обобщим, чтобы сосредоточиться на сути вопроса. Я изложу мельчайшие детали, чтобы не оставить никаких сомнений. Анализ требует только следующее:

  1. Среднее арифметическое из набора чисел определяется какZ1,...,Zм

    1м(Z1++Zм),
  2. Ожидание является линейным оператором. То есть, когда являются случайными переменными и являются числами, то ожидание линейной комбинации является линейной комбинацией ожиданий,α iZя,язнак равно1,...,мαя

    Е(α1Z1++αмZм)знак равноα1Е(Z1)++αмЕ(Zм),

Пусть - выборка полученная из набора данных путем равномерного взятия элементов из с заменой. Пусть среднее арифметическое из . Это случайная величина. потом( B 1 , , B k ) x = ( x 1 , , x n ) k x m ( B ) BВ(В1,...,ВК)Иксзнак равно(Икс1,...,ИксN)КИксм(В)В

Е(м(В))знак равноЕ(1К(В1++ВК))знак равно1К(Е(В1)++Е(ВК))

следует по линейности ожидания. Поскольку все элементы получены одинаковым образом, все они имеют одинаковое ожидание, говорят:bВб

Е(В1)знак равнознак равноЕ(ВК)знак равноб,

Это упрощает вышеизложенное

Е(м(В))знак равно1К(б+б++б)знак равно1К(Кб)знак равноб,

По определению ожидание представляет собой взвешенную по вероятности сумму значений. Поскольку предполагается, что каждое значение имеет равную вероятность выбора ,1 / nИкс1/N

Е(м(В))знак равнобзнак равноЕ(В1)знак равно1NИкс1++1NИксNзнак равно1N(Икс1++ИксN)знак равноИкс¯,

среднее арифметическое данных.

Чтобы ответить на вопрос, если кто-то использует среднее значение данных для оценки среднего значения популяции, то среднее значение начальной загрузки (в данном случае ) также равно и, следовательно, является идентичным в качестве оценки среднего значения популяции. , k=n ˉ xИкс¯Кзнак равноNИкс¯


Для статистики, которая не является линейной функцией данных, один и тот же результат не обязательно имеет место. Однако было бы неправильно просто подставлять среднее значение начальной загрузки для значения статистики в данных: это не то, как работает начальная загрузка. Вместо этого, сравнивая среднее значение начальной загрузки со статистикой данных, мы получаем информацию о смещении статистики. Это можно использовать для корректировки исходной статистики, чтобы устранить смещение. Таким образом, исправленная смещением оценка, таким образом, становится алгебраической комбинацией исходной статистики и среднего значения начальной загрузки. Для получения дополнительной информации ищите «BCa» (скорректированная смещения и ускоренная начальная загрузка) и «ABC». Википедия предоставляет некоторые ссылки.


Вы имеете в виду, что ожидание среднего значения при загрузке равно среднему по данным, нет? Само значение начальной загрузки не определяется (исходной) выборкой данных.
Капибаралет

@ user2429920 Средство начальной загрузки - это статистика, определяемая выборкой. В этом смысле оно идентично среднему показателю. Его ожидание взято в смысле распределения выборки. Я подозреваю, что вы можете использовать «ожидание» в другом смысле относительно процесса вычисления среднего значения при начальной загрузке с помощью повторной подвыборки с заменой.
whuber

1
Я думаю, что последний абзац является фактическим ответом на этот вопрос, поскольку он является общим и не сфокусирован только на средней статистике. У меня были те же сомнения, что и у ОП, и я не знал о существовании BCa. Хотя демонстрация в этом ответе мне не сильно помогла (я не использую среднее в качестве своей статистики), последний абзац был очень ясен о сути вопроса. Я полагаю, что ответ Сианя также касается случая, когда используется средняя статистика, то же самое. Спасибо!
Габриэль

1
@ Габриэль хорошие очки. Я проверил запись: перед редактированием этот вопрос изначально задавался только о среднем. Вот почему ответы так сосредоточены на этой статистике.
whuber

9

F^N(Икс)знак равно1NΣязнак равно1NяИксяИксИкся~н.о.р.F(Икс),
ЕF^N[Икс]знак равно1NΣязнак равно1NИксязнак равноИкс¯N
ЕF^N[Икс]Икс¯N

2
+1 Это ответ, который я изначально хотел написать, но боялся, что он может оказаться слишком непрозрачным для некоторых читателей. Я, тем не менее, рад видеть его так элегантно представленным. Я не уверен, что вы имеете в виду в своем последнем предложении, хотя вы, кажется, отличаете «ожидание» моделируемого приближения от среднего значения от его «предела»: так как ожидание является постоянным (оно не изменяется в зависимости от размера моделирования) ), на самом деле нет никаких ограничений.
whuber

@whuber: Спасибо за комментарий и извините за то, что написали мой краткий ответ точно в то же время, что и ваш! Ваши объяснения, безусловно, более читабельны для новичков в начальной загрузке. Я исправил последнее предложение, ограничивающей частью которого является закон больших чисел.
Сиань

3
Использование вами «среднего» в этом последнем предложении весьма неоднозначно! Я понял это из вашей подсказки LLN. Для любого конечного моделирования распределения начальной загрузки каждая выборка в моделировании производит свое собственное среднее значение (есть одно значение «среднего»). Среднее значение всех этих выборок в данном моделировании дает среднее значение моделирования (есть другое значение). Среднее значение моделирования сходится к константе по мере увеличения размера моделирования, которое является средним значением начальной загрузки (третье значение), и это равняется среднему значению выборки (четвертое значение). (И это оценивает среднее значение населения - пятое значение!)
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.