-test В.С. -test для сравнения шансов подхватить простуду в 2 -х группах

Я только что прочитал в довольно уважаемом (популярном) научном журнале (немецкий PM, 02/2013, с.36) об интересном эксперименте (к сожалению, без источника). Это привлекло мое внимание, потому что интуитивно я сомневался в значимости результата, но предоставленной информации было достаточно для воспроизведения статистического тестирования.

Исследователи задавались вопросом, увеличивает ли вероятность простуды в холодную погоду шансы простудиться. Таким образом, они случайным образом разделили группу из 180 студентов на две группы. Одна группа должна была держать ноги в холодной воде в течение 20 минут. Другой оставался в туфлях. Я думаю, что это забавная манипуляция, но, с другой стороны, я не врач, и, возможно, врачи думают смешно. Этические проблемы в стороне.

В любом случае, через 5 дней у 13 учеников в группе лечения была простуда, но только у 5 из группы, которая держала их обувь. Соотношение шансов в этом эксперименте, таким образом, составляет 2,87.

Учитывая довольно маленький размер выборки, я начал задаваться вопросом, может ли эта разница быть значительной. Поэтому я провел два теста.

Сначала простой тест на равенство пропорций с использованием нормального приближения. Этот тест имеет с . Я предполагаю, что это то, что исследователи исследовали. Это действительно просто важно. Однако этот z-тест действителен только для больших выборок, если я не ошибаюсь, из-за нормального приближения. Кроме того, показатели распространенности довольно малы, и мне интересно, не может ли это повлиять на степень охвата доверительного интервала эффекта. $z=1.988$ $p=0.0468$

Поэтому моей второй попыткой был тест независимости хи-квадрат, как с симуляцией Монте-Карло, так и со стандартным хи-квадрат Пирсона. Здесь я нахожу p-значения как о . $p=.082$

Теперь все не так обнадеживает насчет результатов. Я задавался вопросом, есть ли еще варианты для проверки этих данных и каковы ваши мысли о двух тестах (в частности, предположения о первом, значимом, тесте)

— Томка
источник

Я полагаю, что вы выполнили исправление непрерывности в статистике хи-квадрат Пирсона, которая учитывает расхождение в р-значениях.

— Scortchi - Восстановить Монику

Ответы:

Я бы использовал тест перестановки вместо нормального приближения или хи-квадрат. Тест перестановки является точным и наиболее мощным, обусловленным данными.

В этом случае мы не можем вычислить все перестановки групп, но мы можем сгенерировать много случайных перестановок данных и получить довольно точное значение:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

который будет указывать значение р 0,039.

ОДНАКО, и это большое, однако, я предполагаю, что предположение, что субъекты, болеющие простудой, являются независимыми событиями, нарушается. Эти люди являются учениками, предположительно, в одной школе. Представьте себе, что двое из них живут в одном классе, общежитии, каком-то другом занятии или кафетерии (в школе с несколькими кафе); события "# 1 простужается" и "# 2 простужается" не являются независимыми. Я мог предположить, что студент сказал бы: «Давайте подпишемся на этот эксперимент!» своему соседу по комнате или друзьям; Я мог предположить, что студенты были приняты на работу из классов, которые преподавали профессора; Я мог бы вообразить множество способов, которыми допущение независимости нарушается. Возможно, статья, которую я не читал, касается некоторых из них, но трудно понять, как она могла бы решить все из них,

— jbowman
источник

Спасибо @jbowman - кроме того, вы провели односторонний тест, я вижу. Я думаю, что это имеет больше смысла, чем двухсторонние тесты, которые я использовал. Если нормальное приближение сделано односторонним, значения p на 0,023 выше. Мне нравится мысль о независимости. Возможно, студенты также не были изолированы, когда они держали свои ноги в воде, так что это также способ передачи простуды.

— Томка

(+1) Но стоит отметить, что вам не нужно моделировать: распределение вашей тестовой статистики следует гипергеометрическому распределению при нулевой гипотезе (и обусловливание на предельных итогах). Это точный тест Фишера.

— Scortchi - Восстановить Монику

@jbowman дал вам хороший вариант. Я подумал, что мог бы предоставить некоторую информацию относительно ваших явных вопросов о пригодности -test против теста . $z$ $\chi^2$

$\boldsymbol z$ -test:

Существует две проблемы относительно целесообразности использования критерия, оба относительно правильности предполагаемого распределения выборки. Во-первых, тест использует нормальное распределение вместо распределения, подразумевая, что стандартные отклонения известны без ошибки выборки. Во-вторых, распределение выборки является непрерывным, но данные являются дискретными; поскольку возможны только определенные комбинации данных, возможны только определенные результирующие реализованные статистические значения теста, которые могут не соответствовать теоретическому распределению выборки. (Я обсуждаю эту проблему в контексте других тестов здесь: сравнение и контрастирование, p-значения, уровни значимости и ошибка типа I. ) $z$ $z$ $t$

Давайте рассмотрим первую проблему в другом контексте. Если у вас есть две группы с нормально распределенными данными, и вы хотите увидеть, эквивалентны ли средние значения, вам необходимо рассчитать как средние значения, так и стандартные отклонения. Теперь мы знаем, что средства подвержены ошибкам выборки, поэтому нам нужно выполнить тест, а не просто сказать, что эти два образца не идентичны. Однако наши оценки стандартных отклонений также должны быть подвержены ошибкам выборки, и мы должны как-то учитывать этот факт. Когда мы делаем это, оказывается, что тестовая статистика (вид средней разницы) распределена как . Если бы мы использовали нормальное распределение вместо (т.е. $t$ $z$ -test), это будет означать, что мы предполагаем, что наши оценки стандартных отклонений без ошибок - идеально. Так почему же -test можно использовать в вашем случае? Причина в том, что ваши данные являются биномиальными (т. Е. Числом «успехов» из известной суммы «испытаний»), а не нормальными. В биномиальном распределении стандартное отклонение является функцией среднего значения, поэтому, как только вы оценили среднее значение, вам не придется беспокоиться о дополнительной неопределенности. Таким образом, нормальное распределение может использоваться в качестве модели распределения выборки тестовой статистики. $z$

Хотя использование нормального распределения для понимания долгосрочного поведения статистики теста технически правильно, возникает другая проблема. Проблема в том, что нормальное распределение является непрерывным, но поскольку ваши данные дискретны, не все значения теоретического распределения могут быть найдены в вашем наборе данных. (Опять же , я обсуждаю этот вопрос значительно более подробно в выше связанный ответе.) К счастью, матч между возможными результатами ваших данных и теоретическим нормальным распределением выборки становится лучше, чем больше ваш . В вашем случае, независимо от истинных вероятностей, у вас может быть столько же успехов, сколько их нет, или всего один в каждой группе. Это означает, что количество возможных комбинаций равно $N$ $91\times 91 = 1,\!729$ , что много возможностей. С небольшим набором данных вы действительно можете столкнуться с некоторыми проблемами, которые я обсуждаю в своем связанном ответе, но с вам не о чем беспокоиться. Я считаю, что тест был правильным выбором для исследователей. $N = 180$ $z$

$\boldsymbol \chi^2$ -test:

Но как насчет -test? Я думаю, что это также правильный выбор, но это не будет моим первым выбором. (Позвольте мне отметить, что вторая проблема, рассмотренная выше - несоответствие между дискретными данными и непрерывным распределением ссылок - относится так же к -тесту, как и к -тесту, поэтому существует здесь нет никаких преимуществ.) Проблема с $\chi^2$ $\chi^2$ $z$ $\chi^2$ -проверка заключается в том, что в итоговых значениях столбцов нет ничего особенного относительно итоговых строк; оба рассматриваются так, как если бы они могли иметь другие возможные значения. Однако это не совсем точно отражает экспериментальную установку. Было 180 человек, и 90 были назначены на каждую группу. Единственное, что действительно может отличаться в повторяющихся идентичных исследованиях, - это количество людей, которые простудились в каждой группе. Тест неправильно обрабатывает как количество простуд, так и количество людей в каждой группе, как если бы они могли варьироваться, но тест делает правильное предположение. Вот почему -test обладает большей силой. $\chi^2$ $z$ $z$

Что бы это ни стоило, тест перестановки, предложенный @jbowman, также правильно понимает этот аспект вашего дизайна и не страдает от проблемы дискретного непрерывного несоответствия. Таким образом, это лучший вариант. Но я подумал, что вам может быть интересно узнать немного больше о том, как и тесты сравниваются в вашей ситуации. $z$ $\chi^2$

— Gung - Восстановить Монику
источник

Спасибо @gung, я действительно ценю ваши усилия. Это проясняет ситуацию.

— Томка

@ Gung Я в замешательстве - квадрат Чи и Z пропорции одинаковы или нет? stats.stackexchange.com/questions/173415/…

— Ксавье Бурре Сикот

@XavierBourretSicotte, z-тест часто реализуется под капотом как тест хи-квадрат, например, R делает это. Я все еще часто предпочитаю использовать z-тест, потому что информация представлена способом, согласующимся с пониманием, что 1 переменная является ковариацией, а другая - ответом.

— gung - Восстановить Монику

(+1) @XavierBourretSicotte: есть два обычно используемых z-критерия для разницы между двумя пропорциями: один - критерий оценки, эквивалентный критерию хи-квадрат Пирсона (в котором дисперсия в знаменателе рассчитывается по наилучшему соответствию) значение NULL); другой - это критерий Вальда (в котором дисперсия в знаменателе рассчитывается по оценке максимального правдоподобия разности в двух пропорциях).

— Scortchi - Восстановить Монику

@ Scortchi спасибо за разъяснение этого! Это первый раз, когда я сталкиваюсь с таким явным объяснением различия - сможете ли вы указать ссылки на места, где объясняются два подхода? С соответствующими формулами для дисперсии?

— Ксавье Бурре Сикот