Рецензент должен был сказать вам, почему Spearman не подходит. Вот одна из версий этого: Пусть данные будут ( Z i , I i ), где Z - измеренная переменная, а I - гендерный показатель, скажем, 0 (мужчина), 1 (женщина). Затем ρ Спирмена вычисляется на основе рангов Z , I соответственно. Поскольку для индикатора I возможны только два значения, связей будет много, поэтому эта формула не подходит. Если вы замените ранг средним рангом, вы получите только два разных значения: одно для мужчин, другое для женщин. Тогда рρ(Zi,Ii)ZIρZ,IIρстанет в основном некоторой измененной версией средних рангов между двумя группами. Было бы проще (более понятным) просто сравнить средства! Другой подход заключается в следующем.
Пусть - наблюдения непрерывной переменной среди мужчин, Y 1 , ... , Y m - среди женщин. Теперь, если распределения X и Y одинаковы, то P ( X > Y ) будет 0,5 (предположим, что распределение является чисто непрерывным, поэтому нет связей). В общем случае определите
θ = P ( X > Y )
где среди женщин. Можем ли мы оценить θX1,…,XnY1,…,YmXYP(X>Y)
θ=P(X>Y)
- случайная ничья среди мужчин,
YXYθ по нашей выборке? Сформируйте все пары
(предположим, что нет связей) и посчитайте, сколько у нас «мужчина больше» (
X i > Y j ) (
M ) и сколько «женщина больше» (
X i < Y j ) (
W ). Тогда одной примерной оценкой
θ является
M(Xi,Yj)Xi>YjMXi<YjWθ
Это одна разумная мера корреляции! (Если есть только несколько связей, просто игнорируйте их). Но я не уверен, как это называется, если у него есть имя. Этот может быть близко:
https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaMM+W