«Большинство мужчин быстрее, чем большинство женщин», возможно, немного двусмысленно, но я обычно интерпретирую намерение таково, что если мы посмотрим на случайные парировки, большую часть времени мужчина будет быстрее - то есть для случайных (где - «время для мужчины» и т. Д.). i,jMiiP(Mi<Fj)>12i,jMii
Конечно, возможны и другие толкования фразы (в конце концов, это и есть двусмысленность), и некоторые из этих других возможностей могут соответствовать вашим рассуждениям.
[У нас также есть вопрос о том, говорим ли мы об образцах или группах населения ... «большинство мужчин [...] большинство женщин», кажется, является популяционным заявлением (о группе потенциальных времен), но мы наблюдали только времена что мы, кажется, рассматриваем как образец, поэтому мы должны быть осторожны с тем, насколько широко мы заявляем.]
Обратите внимание, что не подразумевается . Они могут идти в противоположных направлениях.˜ M < ˜ FP(Mi<Fj)>12M˜<F˜
[Я не говорю, что вы ошибаетесь, думая, что доля случайных пар MF, где мужчина был быстрее, чем женщина, составляет более половины - вы почти наверняка правы. Я просто говорю, что вы не можете сказать это, сравнивая медианы. Вы также не можете сказать это, посмотрев на долю в каждом образце выше или ниже медианы другого образца. Вы должны сделать другое сравнение.]
То есть, хотя средний мужчина может быть быстрее, чем средняя женщина, можно иметь выборку времен (или, если на то пошло, постоянное распределение), когда вероятность того, что случайный мужчина быстрее случайной женщины, равна меньше чем . В больших выборках каждое из двух противоположных показаний может быть значительным.12
Пример:
Набор данных A:
1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
1.42 2.56 16.73 17.01 18.86 19.98
Набор данных B:
3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
3.44 4.13 6.00 20.85 21.82 22.05
Набор данных C:
6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
6.57 7.58 8.81 9.08 23.43 24.45
(Данные здесь , но используются там для другой цели - насколько я помню, я сам их сгенерировал)
Обратите внимание, что доля A <B составляет 2/3, доля A <C составляет 5/9, а доля B <C составляет 2/3. Как A против B, так и B против C значимы на уровне 5%, но мы можем достичь любого уровня значимости, просто добавив достаточное количество копий образцов. Мы можем даже избежать связей, дублируя выборки, но добавляя достаточно крошечный джиттер (достаточно меньший, чем наименьший зазор между точками)
Выборочные медианы идут в другом направлении: медиана (A)> медиана (B)> медиана (C)
Опять же, мы могли бы добиться значимости для некоторого сравнения медиан - до любого уровня значимости - повторяя выборки.
Чтобы связать это с настоящей проблемой, представьте, что А - это «женские времена», а В - «мужские времена». Тогда среднее время мужчин быстрее, но случайно выбранный мужчина в 2/3 времени будет медленнее, чем случайно выбранная женщина.
Взяв наш пример из образцов A и C, мы можем сгенерировать больший набор данных (в R) следующим образом:
n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))
Медиана F будет около 16,25, а медиана M будет около 11,25, но доля случаев, когда F <M, будет 5/9.
[Если бы мы заменили n / 3 биномиальной переменной с параметрами и
мы бы выборку из популяции, где медиана распределения F равна 16.25, а медиана распределения M - 11.25. Между тем в этой популяции вероятность того, что F <M снова будет 5/9.]1n13
Также обратите внимание, что и а (на значительном расстоянии). P(M>med(F))=2P(F<med(M))=23 мед(М)<мед(F)P(M>med(F))=23med(M)<med(F)