Я смотрю на лист Excel, в котором утверждается, что он вычисляет , но я не знаю, как это сделать, и мне было интересно, если я что-то упустил.
Вот данные, которые он анализирует:
+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
| 2000 | 42 | 32.5 |
| 2000 | 42 | 32.5 |
| 2000 | 25 | 32.5 |
| 2000 | 21 | 32.5 |
+------------------+----------+----------+
И вот суммы, которые он делает для каждой группы, чтобы вычислить квадрат хи:
P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B
Таким образом, для каждой группы :
2.822793
2.822793
1.759359
4.136448
А общая хи - квадрат: 11.54139
.
Однако каждый пример вычисления который я видел, полностью отличается от этого. Я бы сделал для каждой группы:
chiSq = (Observed-Expected)^2 / Expected
И поэтому для приведенного выше примера я бы получил общее значение хи-квадрат 11.3538
.
Мой вопрос - почему в листе Excel они вычисляют таким образом? Это признанный подход?
ОБНОВИТЬ
Моя причина желания знать это состоит в том, что я пытаюсь воспроизвести эти результаты на языке R. Я использую функцию chisq.test, и она не выходит с тем же номером, что и лист Excel. Так что, если кто-нибудь знает, как сделать этот подход в R, это было бы очень полезно!
ОБНОВЛЕНИЕ 2
Если кому-то интересно, вот как я рассчитал это в R:
res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
x=c(42,42,25,21);chisq.test(cbind(x,2000-x))