Почему коэффициенты шансов от формулы и R 'fisher.test отличаются? Какой из них выбрать?


14

В следующем примере

> m = matrix(c(3, 6, 5, 6), nrow=2)
> m
     [,1] [,2]
[1,]    3    5
[2,]    6    6
> (OR = (3/6)/(5/6))    #1
[1] 0.6
> fisher.test(m)        #2

    Fisher's Exact Test for Count Data

data:  m 
p-value = 0.6699
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.06390055 5.07793271 
sample estimates:
odds ratio 
 0.6155891 

Я рассчитал соотношение шансов (# 1) «вручную», 0,600; затем (# 2) как один из результатов точного теста Фишера, 0,616.

Почему я не получил ту же стоимость?

Почему существует несколько способов вычисления отношения шансов и как выбрать наиболее подходящий?

Ответы:


10

Со страницы справки для fisher.test():

Обратите внимание, что используется условная оценка максимального правдоподобия (MLE), а не безусловная MLE (отношение шансов выборки).


3

Чтобы добавить к обсуждению здесь, полезно спросить, что именно обусловлено в этой «условной» вероятности. Тест Фишера отличается от других категориальных анализов тем, что он считает все поля таблицы фиксированными, в то время как модель логистической регрессии (и соответствующий критерий хи-квадрат Пирсона, который является тестом баллов логистической модели) учитывает только одно поле, которое должно быть фиксированным. ,

Затем критерий Фишера рассматривает гипергеометрическое распределение как вероятностную модель для подсчетов, наблюдаемых в каждой из 4 ячеек. Гипергеометрическое распределение имеет особенность в том, что, поскольку распределение отношения исходных шансов не является непрерывным, вы часто получаете другое ИЛИ в качестве оценки максимального правдоподобия.


2
Я не думаю, что ваш ответ проясняет, как может возникнуть эта конкретная вероятность. Например, если вы моделируете процесс генерирования данных с помощью бинома продукта, вы получаете другое условие вероятности (& MLE), зависящее от предельных итогов, от того, что вы получаете, если моделируете его с нецентральным гипергеометрическим распределением Валлениуса - предельным итоги считаются фиксированными в обоих случаях.
Scortchi - Восстановить Монику

1

Чтобы ответить на ваш второй вопрос, биостаты - не моя сильная сторона, но я считаю, что причина для статистики множественных шансов заключается в том, чтобы учитывать дизайн выборки и дизайн экспериментов.

Я нашел здесь три ссылки, которые дадут вам некоторое представление о том, почему существует разница между условным MLE и безусловным для отношения шансов, а также другими типами.

  1. Точечная и интервальная оценка общего отношения шансов в комбинации таблиц 2 × 2 с фиксированными маргиналами

  2. Влияние систематической ошибки на оценки относительного риска для парных и стратифицированных образцов

  3. Сравнительное исследование условной оценки максимального правдоподобия общего отношения шансов


3
Было бы полезно хотя бы немного суммировать, что говорят эти ссылки.
Scortchi - Восстановить Монику

@ Scortchi, согласился. Я был занят работой и имел только возможность прочитать первую или две страницы каждого из них. Я добавлю резюме каждого в эти выходные.
Джон

@Jon Если бы вы могли, было бы полезно добавить это краткое резюме
Glen_b

@ Джон, я задал только один вопрос. Второй вопрос был добавлен через 4 года после того, как я опубликовал свой первоначальный вопрос. Я не отменяю раздражающее редактирование bli, поскольку вы ссылались на второй вопрос, но я не уверен, как принять ответ больше.
winerd
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.