Что если вероятности не равны в «.632 Правиле»?


11

Этот вопрос вытекает из вопроса о «.632 Правиле». Я пишу с особым вниманием к ответу / примечанию пользователя 603 в той степени, в которой это упрощает вопросы.

Этот ответ начинается с выборки размера с заменой из различных элементов в коллекции (вызов) it N. Вероятность того, что выборка отличается от конкретного элемента из N, равнаn i t h s i m ( 1 - 1 / n ) .n,nithsim(11/n).

В этом ответе все элементы N имеют одинаковую вероятность случайного выбора.

У меня такой вопрос: предположим, вместо этого, что в приведенном выше вопросе элементы, которые должны быть нарисованы, таковы, что они обычно распределены. То есть мы подразделяем стандартную нормальную кривую от до на (скажем) 100 субинтервалов равной длины. Каждый из 100 элементов в N имеет вероятность быть нарисованным, который равен области, представленной кривой в соответствующем интервале.Z = 4Z=4Z=4

Мое мышление было следующим:

Я думаю, что рассуждения аналогичны рассмотренному в связанном ответе. Вероятность того, что , с элементом N, равна в которой - это вероятность вытягиванияm P ( s im ) = ( 1 - F i ) F i s i .simmP(sim)=(1Fi)Fisi.

Вероятность того, что конкретный элемент m находится в образце S размера n, равна

= 1 - п П 1 ( 1 - F я ) .

P(mS)=1P(mS)=11nP(sim)
=11n(1Fi).

Расчеты, кажется, показывают, что, поскольку длина подинтервалов становится небольшой, ответ сходится к тому же числу, что и в первом случае (вероятности все равны).si

Это кажется нелогичным (для меня), потому что конструкция, кажется, добавляет элементы N, которые редки, поэтому я ожидаю, что число меньше, чем 0,632.

Кроме того, если это правильно, я думаю, мы бы

limn1n(1Fi)=lim(11/n)n=1/e,

что я не знаю, чтобы быть правдой или ложью еще.

Изменить: Если это правда, это, вероятно, будет обобщать некоторые.

Спасибо за любые идеи.


Я только что спросил о последнем уравнении по математике SE (вопрос 791114), потому что меня также интересует, как оно обобщается, если вообще.
Даниэль

... и короткий ответ заключается в том, что последнее равенство верно для PDF-файлов с хорошим поведением, поэтому ответ на этот вопрос заключается в том, что правило .632 справедливо для широкого спектра базовых распределений.
Даниэль

Могу ли я снять чужой ответ с другого сайта и опубликовать его здесь как мой? Вот почему я разместил краткий комментарий. Может быть, есть приемлемый способ сделать это, если так, я поддаюсь.
Даниэль

конечно, вы можете просто упомянуть источник в какой-то момент :)
Firebug

@ Firebug: можете ли вы указать на случай, когда это делается, чтобы я понял, что вы имеете в виду? Спасибо.
Даниэль

Ответы:


2

Вопрос касается ограничивающего поведения

(1)=1i=1n(1Fi)

по мере роста и равномерного сжатия таким образом, что (а) все неотрицательны и (б) они сводятся к единице. (Они следуют из построения и аксиом вероятности.)F i F inFi Fi

По определению этот продукт является экспонентой его логарифма:

i=1n(1Fi)=exp(i=1nlog(1Fi)).

Теорема Тейлора (с формой Лагранжа от остатка) , примененная к , устанавливает, чтоlog

log(1Fi)=Fi12ϕi2Fi12Fi2

для некоторого в интервале . Другими словами, эти логарифмы равны точностью до слагаемых, которые не более чем в раза превышают . Но когда достаточно велико, чтобы гарантировать, что все меньше некоторого заданного (условие, гарантированное равномерной усадкой ), тогда (b) подразумевает и поэтомуϕi[0,Fi]Fi 1/2Fi2nFiϵ>0Finϵ>Fi=1

i=1nFi2i=1nϵ2<i=1n(1n)2=1n.

следовательно

1=i=1nFii=1nlog(1Fi)i=1nFi121n=112n

сжимает логарифм между двумя последовательностями, сходящимися к . Поскольку непрерывен, произведение сходится к экспоненте этого предела, . следовательно1expi=1n(1Fi)exp(1)

limn(1i=1n(1Fi))=1exp(1)0.632,

КЕД .


При более внимательном рассмотрении этого анализа устанавливается, что ошибка в этом приближении (которая всегда будет нижней границей) не больше по размеру, чем Например, разделение стандартного нормального распределения на срезов между и дает максимальное около режима , где оно приблизительно будет равно площади прямоугольника, . Приведенная выше граница устанавливает, что значение формулы будет в пределах от ее предельного значения. Фактическая ошибка на порядок меньше,п=400-44 Р я 0ехр(-1 / 2) / 500,012(1)0,0110,001041 е я 1

(exp((n/2)max(Fi2))1)exp(1).
n=40044Fi0exp(1/2)/500.012(1)0.0110.001041 . Вот вычисление в R(которому мы можем доверять, потому что ни один из является действительно маленьким относительно ):fi1
f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

В самом деле, 1 - prod(1-f)это , тогда как является .1 - exp ( - 1 ) 0,6321206 0.63316151exp(1)0.6321206


2
Анализ ошибок является очень полезным аспектом этого ответа.
Даниэль
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.