Как сделать выборку, когда вы не знаете распределение


9

Я довольно плохо знаком со статистикой (несколько курсов Uni-уровня для начинающих), и мне было интересно узнать о выборках из неизвестных дистрибутивов. В частности, если вы понятия не имеете о базовом дистрибутиве, есть ли способ «гарантировать», что вы получите репрезентативную выборку?

Пример для иллюстрации: скажем, вы пытаетесь выяснить глобальное распределение богатства. Для любого конкретного человека вы можете как-то узнать его точное богатство; но вы не можете "пробовать" каждого человека на Земле. Итак, предположим, что вы выбрали случайным образом n = 1000 человек.

  1. Если ваш образец не включает Билла Гейтса, вы можете подумать, что миллиардеров не существует.

  2. Если вы включили в выборку Билла Гейтса, вы могли бы подумать, что миллиардеры встречаются чаще, чем они есть на самом деле.

В любом случае вы не можете точно сказать, насколько распространены или редки миллиардеры; Возможно, вы даже не сможете сказать, существует ли вообще что-либо.

Существует ли лучший механизм выборки для такого случая?

Как бы вы априори сказали, какую процедуру отбора проб использовать (и сколько образцов необходимо)?

Мне кажется, что вам, возможно, придется «отобрать» огромный процент населения, чтобы узнать что-либо, приближающееся к разумной уверенности, о том, насколько распространены или редки миллиардеры на планете, и что это связано с тем, что базовое распределение является немного сложным. работать с.


1
В случае распределения богатства многое будет зависеть от цели. Если, например, цель состояла в том, чтобы оценить уровни благосостояния, которые поместили бы человека в топ-10%, топ-20% и т. Д., То не было бы критично, включала ли выборка миллиардеров. Но если бы цель состояла в том, чтобы оценить долю богатства, удерживаемую в совокупности в верхних 10%, то, как выборка обрабатывала миллиардеров, вероятно, была бы критической. Общий смысл здесь в том, что то, является ли образец репрезентативным, всегда зависит от того, что вы пытаетесь сделать.
Адам Бейли

действительно? открытая проблема, ответы хорошие, все еще приблизительные значения (иногда лучше, иногда хуже). Это открытая проблема, может быть, единственная открытая проблема статистики
Никос М.

Ответы:



7

Есть две вещи, которые вы можете сделать (отдельно или в комбинации)

Модель хвоста

Одним из них является моделирование хвоста распределения с использованием параметрического распределения. Известно, что законы власти хорошо подходят для распределения богатства, поэтому попробуйте распределение по Парето. Вы либо подобрали бы это распределение по максимальной вероятности, то есть, найдя параметры, которые наилучшим образом представляют вашу выборку. Или, что лучше, вы можете поставить байесовские априорные параметры для параметров и вычислить полный апостериорный.

К сожалению, степенные законы очень чувствительны к параметрам, и без большого количества точек данных в вашей выборке будет много неопределенности относительно показателя. Предполагаемое количество миллиардеров будет чувствительным к этому параметру, но намного меньше, чем среднее богатство миллиардеров, поэтому ситуация не так уж и плоха.

Важность выборки

Другой - изменить способ сбора образца. Предположим, что вы подозреваете (как следует), что в Монако или Цюрихе на душу населения больше миллиардеров, чем в Могадишо. Если вы знаете население каждого из этих городов, вы можете собрать большую выборку в городах, где вы ожидаете увидеть больше миллиардеров, и меньшую в остальных.

Скажем, в Цюрихе 400 000 человек, а в Могадишо 1 400 000, и мы хотим опросить 9 000 человек. Нас здесь интересует количество миллионеров, а не миллиардеров.

Беспристрастный образец выбрал бы 2000 человек в Цюрихе и 7000 в Могадишо. Тем не менее, мы будем смещать выборку, делая выборку в семь раз чаще из Цюриха. Таким образом, мы «сделаем вид», что в Цюрихе 2800000 человек, и приспособимся позже. Это означает, что мы опросим 6000 человек в Цюрихе вместо 2000 и 4000 в Могадишо.

Скажем, мы насчитали 21 миллионера в нашей выборке в Цюрихе и только 1 в нашей выборке в Могадишо. Так как мы сэмплировали Цюрих в 7 раз, мы бы считали его только 3 миллионерами.

Эта процедура уменьшит дисперсию вашей оценки. Он также может использоваться вместе с первым методом, и в этом случае вы будете корректировать выборку по важности при подборе параметрического распределения.


6

Я думаю, что хороший метод выборки основан на предыдущих знаниях о системе. В вашей области у вас есть знания о возможных отклонениях, которые могут повлиять на выборку. Если у вас нет этих знаний, вы можете получить их из литературы.

В вашем примере вы знаете, что есть миллиардеры и что они могут повлиять на выборку. Таким образом, вы можете разделить выборку по уровню образования, стране, типу работы и т. Д. Существует несколько вариантов.

Давайте попробуем с другим примером. Ваша цель - определить количество видов мышей в парке. В этом парке есть лес и луга. Из литературы вы знаете, что в лесу мышей больше, чем на лугах. Таким образом, вы стратифицируете выборку по этой характеристике. Возможна и другая процедура отбора проб, но я думаю, что ваша лучшая информация будет из существующей литературы.

А если нет литературы по вашей области? Невероятно, но в этом контексте я бы сделал предварительное исследование, чтобы выяснить, какие факторы необходимо учитывать при отборе проб.


2

Является ли образец репрезентативным или нет, не имеет ничего общего с наблюдаемыми измерениями образца. Образец является репрезентативным, если каждый набор наблюдательных единиц имеет такую ​​же вероятность выбора, как и любой другой набор того же размера. Конечно, это трудно сделать, если вы не можете получить полный перечень вашего пробного пространства. Предполагая, что вы можете получить это (например, из данных переписного участка), простая случайная выборка будет репрезентативной.

Независимо от того, как вы получили образец, всегда будет по крайней мере три отдельных источника ошибок, которые следует учитывать:

ошибка выборки: случайно вы включили Билла Гейтса в репрезентативную выборку. Статистические методы, особенно ширина доверительных интервалов и т. Д., Предназначены для того, чтобы позаботиться об этом, при условии, что у вас есть приблизительные знания о распределении (например, нормальность, которой распределение богатства определенно не обладает).

смещение выборки: выборка не была репрезентативной. Пример: у Билла Гейтса есть незарегистрированный номер, поэтому ваш телефонный опрос никогда не сможет связаться с ним (если вы не используете что-то вроде «случайного набора номера»). Это крайний пример, но смещение выборки очень широко распространено. Распространенный случай - брать образцы на месте или для удобства: вы выбираете посетителей ресторана в ресторане, чтобы узнать, нравится ли им это место, как часто они там бывают и планируют ли они вернуться. У повторных клиентов гораздо больше шансов быть отобранными, чем у одноразовых, и выборки этого типа могут быть сильно смещены в их отношении.

Смещение ответа: сами измерения неточны. Это может произойти из-за чего-то от неисправностей прибора до сознательной лжи и квантовых эффектов (например, принцип неопределенности Гейзенберга).


Этот ответ имеет полезные советы и охватывает хорошее основание. Я хотел бы предположить, что характеристика «репрезентативной» может быть слишком ограничительной, поскольку она исключает общие и полезные формы выборки (включая некоторые, специально упомянутые в других ответах), такие как стратифицированная выборка, важная выборка и формы систематической выборки. , Разве не достаточно допустить, что выборка является репрезентативной, когда известна возможность включения любого набора единиц наблюдения (и, следовательно, ее можно использовать для получения несмещенных оценок), но она не обязательно постоянна для всех наборов данного размера?
whuber

@whuber «Разве не достаточно допустить, чтобы образец был репрезентативным, когда известна вероятность включения какого-либо набора наблюдательных единиц ...»: Это правильно, и я должен отредактировать свой ответ, чтобы признать стратифицированную выборку и выборку по важности. Однако систематическая выборка является рискованной, и рекомендации, приведенные в ссылке и в других местах, просто неверны. Если в данных есть систематические закономерности, рандомизированная отправная точка не устранит смещение, все, что нужно сделать, это убедиться, что вы не сможете рассчитать смещение.
user3697176

возможно, лучший ответ на данный момент (в смысле нацеливания непосредственно на статистическую точку)
Никос М.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.