Что если вероятности не равны в «.632 Правиле»?

Этот вопрос вытекает из вопроса о «.632 Правиле». Я пишу с особым вниманием к ответу / примечанию пользователя 603 в той степени, в которой это упрощает вопросы.

Этот ответ начинается с выборки размера с заменой из различных элементов в коллекции (вызов) it N. Вероятность того, что выборка отличается от конкретного элемента из N, равна $n,$ $n$ $i^{th}$ $s_i$ $m$ $(1 - 1/n).$

В этом ответе все элементы N имеют одинаковую вероятность случайного выбора.

У меня такой вопрос: предположим, вместо этого, что в приведенном выше вопросе элементы, которые должны быть нарисованы, таковы, что они обычно распределены. То есть мы подразделяем стандартную нормальную кривую от до на (скажем) 100 субинтервалов равной длины. Каждый из 100 элементов в N имеет вероятность быть нарисованным, который равен области, представленной кривой в соответствующем интервале. $Z = -4$ $Z = 4$

Мое мышление было следующим:

Я думаю, что рассуждения аналогичны рассмотренному в связанном ответе. Вероятность того, что , с элементом N, равна в которой - это вероятность вытягивания $s_i \ne m$ $m$ $P(s_i \neq m) = (1 - F_i)$ $F_i$ $s_i.$

Вероятность того, что конкретный элемент m находится в образце S размера n, равна

P (m \in S) = 1 - P (m \notin S) = 1 - \prod_{1}^{n} P (s_{i} \neq m)

$P(m \in S) = 1 - P(m \notin S) = 1 - \prod_1^n P(s_i \neq m)$

= 1 - \prod_{1}^{n} (1 - F_{i}) .

$= 1 - \prod_1^n(1 - F_i).$

Расчеты, кажется, показывают, что, поскольку длина подинтервалов становится небольшой, ответ сходится к тому же числу, что и в первом случае (вероятности все равны). $s_i$

Это кажется нелогичным (для меня), потому что конструкция, кажется, добавляет элементы N, которые редки, поэтому я ожидаю, что число меньше, чем 0,632.

Кроме того, если это правильно, я думаю, мы бы

lim_{n \to \infty} \prod_{1}^{n} (1 - F_{i}) = lim (1 - 1 / n)^{n} = 1 / e,

$\lim_{n \to \infty} \prod_1^n(1 - F_i) =\lim (1- 1/n)^n = 1/e,$

что я не знаю, чтобы быть правдой или ложью еще.

Изменить: Если это правда, это, вероятно, будет обобщать некоторые.

Спасибо за любые идеи.

probability sampling

— Даниил
источник

Я только что спросил о последнем уравнении по математике SE (вопрос 791114), потому что меня также интересует, как оно обобщается, если вообще.

— Даниэль

... и короткий ответ заключается в том, что последнее равенство верно для PDF-файлов с хорошим поведением, поэтому ответ на этот вопрос заключается в том, что правило .632 справедливо для широкого спектра базовых распределений.

— Даниэль

Могу ли я снять чужой ответ с другого сайта и опубликовать его здесь как мой? Вот почему я разместил краткий комментарий. Может быть, есть приемлемый способ сделать это, если так, я поддаюсь.

— Даниэль

конечно, вы можете просто упомянуть источник в какой-то момент :)

— Firebug

@ Firebug: можете ли вы указать на случай, когда это делается, чтобы я понял, что вы имеете в виду? Спасибо.

— Даниэль

Вопрос касается ограничивающего поведения

\begin{matrix} (1) & = 1 - \prod_{i = 1}^{n} (1 - F_{i}) \end{matrix}

$= 1 - \prod_{i=1}^n(1 - F_i)\tag{1}$

по мере роста и равномерного сжатия таким образом, что (а) все неотрицательны и (б) они сводятся к единице. (Они следуют из построения и аксиом вероятности.) $n$ $F_i$ $F_i$

По определению этот продукт является экспонентой его логарифма:

\prod_{i = 1}^{n} (1 - F_{i}) = \exp (\sum_{i = 1}^{n} \log (1 - F_{i})) .

$\prod_{i=1}^n(1 - F_i) = \exp\left(\sum_{i=1}^n\log\left(1-F_i\right)\right).$

Теорема Тейлора (с формой Лагранжа от остатка) , примененная к , устанавливает, что $\log$

\log (1 - F_{i}) = - F_{i} - \frac{1}{2} ϕ_{i}^{2} \geq - F_{i} - \frac{1}{2} F_{i}^{2}

$\log\left(1-F_i\right) = -F_i - \frac{1}{2}\phi_i^2 \ge -F_i - \frac{1}{2}F_i^2$

для некоторого в интервале . Другими словами, эти логарифмы равны точностью до слагаемых, которые не более чем в раза превышают . Но когда достаточно велико, чтобы гарантировать, что все меньше некоторого заданного (условие, гарантированное равномерной усадкой ), тогда (b) подразумевает и поэтому $\phi_i$ $[0, F_i]$ $-F_i$ $1/2$ $F_i^2$ $n$ $F_i$ $\epsilon\gt 0$ $F_i$ $n\epsilon \gt \sum F_i = 1$

\sum_{i = 1}^{n} F_{i}^{2} \leq \sum_{i = 1}^{n} ϵ^{2} < \sum_{i = 1}^{n} {(\frac{1}{n})}^{2} = \frac{1}{n} .

$\sum_{i=1}^n F_i^2 \le \sum_{i=1}^n \epsilon^2 \lt \sum_{i=1}^n \left(\frac{1}{n}\right)^2 =\frac{1}{n}.$

следовательно

- 1 = - \sum_{i = 1}^{n} F_{i} \geq \sum_{i = 1}^{n} \log (1 - F_{i}) \geq - \sum_{i = 1}^{n} F_{i} - \frac{1}{2} \frac{1}{n} = - 1 - \frac{1}{2 n}

$-1 = -\sum_{i=1}^n F_i \ge \sum_{i=1}^n\log\left(1-F_i\right) \ge -\sum_{i=1}^n F_i - \frac{1}{2}\frac{1}{n} = -1 - \frac{1}{2n}$

сжимает логарифм между двумя последовательностями, сходящимися к . Поскольку непрерывен, произведение сходится к экспоненте этого предела, . следовательно $-1$ $\exp$ $\prod_{i=1}^n(1 - F_i)$ $\exp(-1)$

lim_{n \to \infty} (1 - \prod_{i = 1}^{n} (1 - F_{i})) = 1 - \exp (- 1) \approx 0.632,

$\lim_{n\to\infty} \left(1 - \prod_{i=1}^n(1 - F_i)\right) = 1 - \exp(-1) \approx 0.632,$

КЕД .

При более внимательном рассмотрении этого анализа устанавливается, что ошибка в этом приближении (которая всегда будет нижней границей) не больше по размеру, чем Например, разделение стандартного нормального распределения на срезов между и дает максимальное около режима , где оно приблизительно будет равно площади прямоугольника, . Приведенная выше граница устанавливает, что значение формулы будет в пределах от ее предельного значения. Фактическая ошибка на порядок меньше,

(\exp ((n / 2) max (F_{i}^{2})) - 1) \exp (- 1) .

$\left(\exp\left((n/2)\max(F_i^2)\right) - 1\right)\exp(-1).$

n = 400

$n=400$

- 4

$-4$

4

$4$

F_{i}

$F_i$

0

$0$

\exp (- 1 / 2) / 50 \approx 0.012

$\exp(-1/2)/50 \approx 0.012$

(1)

$(1)$

0.011

$0.011$

0.001041

$0.001041$ . Вот вычисление в R(которому мы можем доверять, потому что ни один из является действительно маленьким относительно ):

f_{i}

$f_i$

1

$1$

f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

В самом деле, 1 - prod(1-f)это , тогда как является . $0.6331615\ldots$ $1-\exp(-1)$ $0.6321206\ldots$

— Whuber
источник

Анализ ошибок является очень полезным аспектом этого ответа.

— Даниэль