@jbowman дал вам хороший вариант. Я подумал, что мог бы предоставить некоторую информацию относительно ваших явных вопросов о пригодности -test против теста . χ 2Zχ2
z -test:
Существует две проблемы относительно целесообразности использования критерия, оба относительно правильности предполагаемого распределения выборки. Во-первых, тест использует нормальное распределение вместо распределения, подразумевая, что стандартные отклонения известны без ошибки выборки. Во-вторых, распределение выборки является непрерывным, но данные являются дискретными; поскольку возможны только определенные комбинации данных, возможны только определенные результирующие реализованные статистические значения теста, которые могут не соответствовать теоретическому распределению выборки. (Я обсуждаю эту проблему в контексте других тестов здесь: сравнение и контрастирование, p-значения, уровни значимости и ошибка типа I. ) z tzzt
Давайте рассмотрим первую проблему в другом контексте. Если у вас есть две группы с нормально распределенными данными, и вы хотите увидеть, эквивалентны ли средние значения, вам необходимо рассчитать как средние значения, так и стандартные отклонения. Теперь мы знаем, что средства подвержены ошибкам выборки, поэтому нам нужно выполнить тест, а не просто сказать, что эти два образца не идентичны. Однако наши оценки стандартных отклонений также должны быть подвержены ошибкам выборки, и мы должны как-то учитывать этот факт. Когда мы делаем это, оказывается, что тестовая статистика (вид средней разницы) распределена как . Если бы мы использовали нормальное распределение вместо (т.е.з гtz-test), это будет означать, что мы предполагаем, что наши оценки стандартных отклонений без ошибок - идеально. Так почему же -test можно использовать в вашем случае? Причина в том, что ваши данные являются биномиальными (т. Е. Числом «успехов» из известной суммы «испытаний»), а не нормальными. В биномиальном распределении стандартное отклонение является функцией среднего значения, поэтому, как только вы оценили среднее значение, вам не придется беспокоиться о дополнительной неопределенности. Таким образом, нормальное распределение может использоваться в качестве модели распределения выборки тестовой статистики. z
Хотя использование нормального распределения для понимания долгосрочного поведения статистики теста технически правильно, возникает другая проблема. Проблема в том, что нормальное распределение является непрерывным, но поскольку ваши данные дискретны, не все значения теоретического распределения могут быть найдены в вашем наборе данных. (Опять же , я обсуждаю этот вопрос значительно более подробно в выше связанный ответе.) К счастью, матч между возможными результатами ваших данных и теоретическим нормальным распределением выборки становится лучше, чем больше ваш . В вашем случае, независимо от истинных вероятностей, у вас может быть столько же успехов, сколько их нет, или всего один в каждой группе. Это означает, что количество возможных комбинаций равно91 × 91 = 1 ,NN = 180 z91×91=1,729, что много возможностей. С небольшим набором данных вы действительно можете столкнуться с некоторыми проблемами, которые я обсуждаю в своем связанном ответе, но с вам не о чем беспокоиться. Я считаю, что тест был правильным выбором для исследователей. N=180z
χ2 -test:
Но как насчет -test? Я думаю, что это также правильный выбор, но это не будет моим первым выбором. (Позвольте мне отметить, что вторая проблема, рассмотренная выше - несоответствие между дискретными данными и непрерывным распределением ссылок - относится так же к -тесту, как и к -тесту, поэтому существует здесь нет никаких преимуществ.) Проблема сχ 2 z χ 2 χ 2 z zχ2χ2zχ2-проверка заключается в том, что в итоговых значениях столбцов нет ничего особенного относительно итоговых строк; оба рассматриваются так, как если бы они могли иметь другие возможные значения. Однако это не совсем точно отражает экспериментальную установку. Было 180 человек, и 90 были назначены на каждую группу. Единственное, что действительно может отличаться в повторяющихся идентичных исследованиях, - это количество людей, которые простудились в каждой группе. Тест неправильно обрабатывает как количество простуд, так и количество людей в каждой группе, как если бы они могли варьироваться, но тест делает правильное предположение. Вот почему -test обладает большей силой. χ2zz
Что бы это ни стоило, тест перестановки, предложенный @jbowman, также правильно понимает этот аспект вашего дизайна и не страдает от проблемы дискретного непрерывного несоответствия. Таким образом, это лучший вариант. Но я подумал, что вам может быть интересно узнать немного больше о том, как и тесты сравниваются в вашей ситуации. χ 2zχ2