Почему вообще стоит рассматривать выборку без замены в практическом применении?


12

Выборка с заменой имеет два преимущества перед выборкой без замены:

1) Вам не нужно беспокоиться о конечной коррекции населения.

2) Существует вероятность, что элементы из совокупности отрисовываются несколько раз - тогда вы можете перезапустить измерения и сэкономить время.

Конечно, из академического POV нужно исследовать оба метода. Но из практического POV я не понимаю, почему можно рассматривать выборку без замены, учитывая преимущества замены.

Но я новичок в статистике, поэтому может быть много веских причин, почему без замены может быть лучшим выбором - по крайней мере для конкретных случаев использования. Пожалуйста, не вводите меня в заблуждение!


3
Подсказка: подумайте, каков эффект применения конечной коррекции численности и почему это может быть полезным. (Также обратите внимание, что (1) выполнение сумм почти всегда меньше проблем и затрат, чем сбор данных; (2) если вы можете различать людей, вам не следует «перерабатывать» измерения, а основывать вывод только на отдельных людях.)
Scortchi - Восстановить Монику

Честно говоря, я на самом деле не понимаю ни одного из ваших утверждений. FPC компенсирует численные последствия отсутствия независимости измерений. Но я не знаю, почему это выгодно. (1) как это связано с моим вопросом? (2) Почему «не следует» перезапускать измерение? Разве это не является прямым логическим следствием того, что при выборке с заменой по совпадению дважды рисуется один и тот же элемент?
Рафаэль

Ответы:


13

Расширяя ответ @Scortchi. , ,

Предположим, у населения было 5 человек, и у вас есть бюджет для выборки из 5 человек. Вас интересует среднее значение переменной X, характерное для отдельных лиц в этой группе. Вы можете сделать это по-своему, и случайным образом выбрать образец с заменой. Дисперсия среднего значения по выборке будет V (X) / 5.

С другой стороны, предположим, что вы выбрали пять человек без замены. Тогда дисперсия среднего значения выборки равна 0. Вы отобрали целую популяцию, каждую особь ровно один раз, поэтому нет различий между «средним по выборке» и «средним по популяции». Это одно и то же.

В реальном мире вы должны прыгать от радости каждый раз, когда вам нужно внести поправку в конечную популяцию, потому что (барабанная дробь ...) делает отклонение вашей оценки снижаться без необходимости собирать больше данных. Почти ничего не делает это. Это как магия: хорошая магия.

То же самое в математике (обратите внимание на <и предположите, что размер выборки больше 1):

finite sample correction=NnN1<N1N1=1

Коррекция <1 означает, что применение коррекции приводит к отклонению вниз, потому что вы применяете коррекцию, умножая ее на дисперсию. Дисперсия ВНИЗ == хорошо.

Двигаясь в противоположном направлении, полностью от математики, подумайте о том, что вы спрашиваете. Если вы хотите узнать о населении и можете выбрать из него 5 человек, представляется ли вероятным, что вы узнаете больше, попробовав 5 раз выбрать одного и того же парня, или более вероятно, что вы узнаете больше, обеспечив что вы пробуете 5 разных парней?

Дело в реальном мире почти противоположно тому, что вы говорите. Почти никогда не пробуете с заменой - это только когда вы делаете специальные вещи, такие как начальная загрузка. В этом случае вы фактически пытаетесь испортить оценку и дать ей «слишком большую» дисперсию.


Под «начальной загрузкой» я понимаю использование параметра выборки вместо параметра совокупности (который вы фактически должны были бы использовать) для оценки параметра совокупности. Почему вам было бы интересно "испортить" оценку и дать ей "слишком большую" дисперсию?
Рафаэль

1
@ Яаффель Я говорю о непараметрической начальной загрузке. Вы берете свою выборку (скажем, размером 100), повторно отбираете ее с заменой (100 раз, получая загрузочную выборку размера 100), а затем пересчитываете интересующую вас оценку. Вы рассматриваете выборку как игрушечную совокупность, моделируете вытягивание образца из нее, вычисляете оценку. Если вы производите выборку из совокупности игрушек без замены, вы точно скопируете совокупность игрушек в выборке, получив первоначальную оценку в качестве новой оценки (т. Е. Дисперсия = 0). Чтобы этого не произошло, поэтому вам образец с заменой.
Билл

5

Точность оценок обычно выше для выборки без замены по сравнению с выборкой с заменой.

Например, можно выбрать только один элемент раз, когда выборка выполняется с заменой в крайнем случае. Это может привести к очень неточной оценке интересующего параметра населения. Такая ситуация невозможна при отборе проб без замены. Таким образом, дисперсия обычно ниже для оценок, сделанных из выборки без замены.n


2

Я не думаю, что ответы здесь полностью адекватны, и они, кажется, приводят доводы в пользу предельного случая, когда ваш объем данных очень мал.

При достаточно большой выборке это совсем не беспокоит, особенно при повторной загрузке (~ 1000). Если я выбрал из истинного распределения набор данных размером 10 000, и я произвел повторную выборку с заменой 1000 раз, тогда полученная мною дисперсия (в отличие от дисперсии, которую я получил бы без замены), совершенно незначительна.

Я бы сказал, что более точный ответ таков: при оценке достоверности статистики второго порядка крайне важна повторная выборка без замены . Например, если я использую бутстрап для оценки неопределенности измерения дисперсии. Нанесение с заменой на такое количество может искусственно искажать восстановленные дисперсии.

Если вам нужен конкретный пример с реальными данными, см. Этот документ https://arxiv.org/abs/1612.02827.

он кратко обсуждает ваш вопрос на странице 10


0

У меня есть результат, который лечит без замены практически как с заменой и снимает все трудности. Обратите внимание, что с заменой расчетов гораздо проще. Таким образом, если вероятность включает в себя p и q, вероятности успеха и неудачи, в случае замены, соответствующая вероятность в случае без замены получается просто с заменой p ^ aq ^ b на (Nab) C (Ra) для любые a и b, где N, R - общее количество шаров и количество белых шаров. Помните, что р рассматривается как R / N.

K.Balasubramanian


было упущение. (Nab) C (Ra) / (NCR) - правильное выражение. Например, среднее значение np становится n (N-1-0) / (R-1) / NCR. Вы можете проверить любой такой результат.
Криш Баласубраманян
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.