Я довольно плохо знаком со статистикой (несколько курсов Uni-уровня для начинающих), и мне было интересно узнать о выборках из неизвестных дистрибутивов. В частности, если вы понятия не имеете о базовом дистрибутиве, есть ли способ «гарантировать», что вы получите репрезентативную выборку?
Пример для иллюстрации: скажем, вы пытаетесь выяснить глобальное распределение богатства. Для любого конкретного человека вы можете как-то узнать его точное богатство; но вы не можете "пробовать" каждого человека на Земле. Итак, предположим, что вы выбрали случайным образом n = 1000 человек.
Если ваш образец не включает Билла Гейтса, вы можете подумать, что миллиардеров не существует.
Если вы включили в выборку Билла Гейтса, вы могли бы подумать, что миллиардеры встречаются чаще, чем они есть на самом деле.
В любом случае вы не можете точно сказать, насколько распространены или редки миллиардеры; Возможно, вы даже не сможете сказать, существует ли вообще что-либо.
Существует ли лучший механизм выборки для такого случая?
Как бы вы априори сказали, какую процедуру отбора проб использовать (и сколько образцов необходимо)?
Мне кажется, что вам, возможно, придется «отобрать» огромный процент населения, чтобы узнать что-либо, приближающееся к разумной уверенности, о том, насколько распространены или редки миллиардеры на планете, и что это связано с тем, что базовое распределение является немного сложным. работать с.