Краткий ответ:
По сути, более убедительно иметь 600 из 1000, чем шесть из 10, потому что при равных предпочтениях вероятность того, что 6 из 10 произойдет случайно , гораздо выше.
Давайте сделаем предположение - что доля тех, кто предпочитает апельсины и яблоки, на самом деле равна (то есть 50% каждый). Назовите это нулевой гипотезой. Учитывая эти равные вероятности, вероятность двух результатов:
- Учитывая выборку из 10 человек, есть 38% вероятности случайного получения выборки из 6 или более людей, которые предпочитают апельсины (что не так уж и маловероятно).
- При выборке из 1000 человек вероятность того, что 600 или более из 1000 человек предпочитают апельсины, составляет менее 1 на миллиард .
(Для простоты я предполагаю бесконечную популяцию, из которой можно брать неограниченное количество образцов).
Простой вывод
Один из способов получить этот результат - просто перечислить потенциальные способы объединения людей в наших примерах:
Для десяти человек это просто:
Подумайте о том, чтобы выбрать 10 случайных людей из бесконечной популяции людей с одинаковыми предпочтениями в отношении яблок или апельсинов. При одинаковых предпочтениях легко перечислить все возможные комбинации из 10 человек:
Вот полный список.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r - это число результатов (люди, которые предпочитают апельсины), C - количество возможных способов того, что многие люди предпочитают апельсины, и p - итоговая вероятность того, что многие люди предпочитают апельсины в нашей выборке.
(p - это просто C, деленное на общее количество комбинаций. Обратите внимание, что существует 1024 способа упорядочения этих двух предпочтений в целом (т.е. от 2 до степени 10).
- Например, есть только один способ (один образец) для 10 человек (r = 10), чтобы все предпочитали апельсины. То же самое верно для всех людей, предпочитающих яблоки (r = 0).
- Есть 10 различных комбинаций, в результате чего девять из них предпочитают апельсины. (Один и тот же человек предпочитает яблоки в каждом образце).
- Есть 45 образцов (комбинаций), где 2 человека предпочитают яблоки и т. Д. И т. Д.
(В общем, мы говорим о n C r комбинациях результатов r из выборки из n человек. Существуют онлайн-калькуляторы, которые можно использовать для проверки этих чисел.)
Этот список позволяет нам дать нам вероятности выше, используя только деление. Существует 21% шансов получить 6 человек в выборке, которые предпочитают апельсины (210 из 1024 комбинаций). Шанс получить шесть или более человек в нашей выборке составляет 38% (сумма всех выборок с шестью или более людьми или 386 из 1024 комбинаций).
Графически вероятности выглядят так:
С увеличением числа число потенциальных комбинаций быстро растет.
Для выборок всего из 20 человек существует 1 048 576 возможных образцов, причем все с равной вероятностью. (Примечание: я показал только каждую вторую комбинацию ниже).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Есть еще только один образец, где все 20 человек предпочитают апельсины. Комбинации, которые показывают смешанные результаты, гораздо более вероятны, просто потому, что существует гораздо больше способов объединения людей в выборках.
Смещенные образцы гораздо более маловероятны, просто потому что есть меньше комбинаций людей, которые могут привести к этим образцам:
Если в каждой выборке всего 20 человек, совокупная вероятность того, что 60% или более (12 или более) человек в нашей выборке предпочитают апельсины, снижается до 25%.
Распределение вероятностей становится все тоньше и выше:
С 1000 человек цифры огромны
Мы можем распространить приведенные выше примеры на более крупные выборки (но числа растут слишком быстро, чтобы можно было перечислить все комбинации), вместо этого я вычислил вероятности в R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
Совокупная вероятность того, что 600 или более из 1000 человек предпочитают апельсины, составляет всего 1,364232e-10.
Распределение вероятностей теперь намного более сконцентрировано вокруг центра:
[
(Например, для расчета вероятности 600 из 1000 человек, предпочитающих апельсины при использовании R, dbinom(600, 1000, prob=0.5)
это равно 4,633908e-11, а вероятность 600 или более человек 1-pbinom(599, 1000, prob=0.5)
равна 1,364232e-10 (менее 1 на миллиард).