У меня есть три группы данных, каждая с биномиальным распределением (то есть каждая группа имеет элементы, которые являются либо успехом, либо неудачей). У меня нет прогнозируемой вероятности успеха, но вместо этого я могу полагаться только на показатель успешности каждого из них в качестве приблизительного значения для истинного уровня успеха. Я нашел только этот вопрос , который близок, но, похоже, не совсем подходит к этому сценарию.
Чтобы упростить тест, давайте просто скажем, что у меня есть 2 группы (3 могут быть расширены из этого базового случая).
- Испытания группы 1: = 2455
- Испытания группы 2: = 2730
- Успех группы 1: = 1556
- Успех группы 2: = 1671
У меня нет ожидаемой вероятности успеха, только то, что я знаю из образцов. Итак, мой предполагаемый уровень успеха для двух групп:
- Успех группы 1: = 1556/2455 = 63,4%
- Успех группы 2: = 1671/2730 = 61,2%
Показатель успешности каждого образца довольно близок. Однако мои размеры выборки также довольно велики. Если я проверяю CDF биномиального распределения, чтобы увидеть, насколько он отличается от первого (где я предполагаю, что первый - нулевой тест), я получаю очень небольшую вероятность того, что второе может быть достигнуто.
В Excel:
1-BINOM.DIST (1556 245,61,2%, ИСТИНА) = 0,012
Однако это не учитывает дисперсию первого результата, оно просто предполагает, что первый результат является вероятностью теста.
Есть ли лучший способ проверить, действительно ли эти две выборки данных статистически отличаются друг от друга?
prop.test
: prop.test(c(1556, 1671), c(2455, 2730))
.