У нас есть данные с двоичным результатом и некоторыми ковариатами. Я использовал логистическую регрессию для моделирования данных. Просто простой анализ, ничего необычного. Предполагается, что конечным результатом будет кривая доза-эффект, где мы показываем, как изменяется вероятность для конкретного ковариата. Что-то вроде этого:
Мы получили некоторую критику от внутреннего рецензента (не чисто статистики) за выбор логистической регрессии. Логистическая регрессия предполагает (или определяет), что точка перегиба S-образной кривой на шкале вероятностей составляет 0,5. Он утверждал, что не было бы никаких оснований предполагать, что точка перегиба действительно имела вероятность 0,5, и мы должны выбрать другую модель регрессии, которая позволяет точке перегиба изменяться так, что фактическое положение определяется данными.
Сначала он был застигнут врасплох его аргументом, так как я никогда не думал об этом. У меня не было никаких аргументов, почему было бы оправданным предполагать, что точка перегиба составляет 0,5. После некоторого исследования у меня все еще нет ответа на этот вопрос.
Я столкнулся с 5-параметрической логистической регрессией, для которой точка перегиба является дополнительным параметром, но кажется, что эта модель регрессии обычно используется при получении кривых доза-ответ с непрерывным исходом. Я не уверен, если и как это может быть распространено на двоичные переменные ответа.
Я предполагаю, что мой главный вопрос заключается в том, почему или когда можно предположить, что точка перегиба для логистической регрессии составляет 0,5? Имеет ли это значение? Я никогда не видел, чтобы кто-нибудь подходил к модели логистической регрессии и открыто обсуждал вопрос о точке перегиба. Существуют ли альтернативы для построения кривой доза-ответ, где точка перегиба не обязательно равна 0,5?
Просто для полноты, код R для генерации рисунка выше:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Изменить 1:
Просто чтобы добавить к тому, что сказал Scortchi в одном из комментариев: рецензент действительно утверждал, что биологически может быть более вероятно, что изменение кривизны происходит раньше, чем 0,5. Поэтому его сопротивление против предположения, что точка перегиба составляет 0,5.
Изменить 2:
Как реакция на комментарий Фрэнка Харрелла:
В качестве примера, я изменил свою модель выше, включив в нее квадратичный и кубический член gre
(который в данном примере является «дозой»).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Несмотря на то, что gre
в данном случае, вероятно, не имеет смысла добавлять квадратичный и кубический член, мы видим, что форма кривой доза-ответ изменилась. Действительно, теперь у нас есть две точки перегиба около 0,25 и около 0,7.