Интервал прогнозирования будущей доли успехов в биномиальных условиях


9

Предположим, я подгоняю биномиальную регрессию и получаю точечные оценки и дисперсионно-ковариационную матрицу коэффициентов регрессии. Это позволит мне получить CI для ожидаемой доли успехов в будущем эксперименте, , но мне нужен CI для наблюдаемой пропорции. Было опубликовано несколько связанных ответов, в том числе симуляция (предположим, я не хочу этого делать) и ссылка на Кришнамурти и др. (Которая не совсем отвечает на мой вопрос).п

Я рассуждаю так: если мы используем только биномиальную модель, мы вынуждены предположить, что выбрано из нормального распределения (с соответствующим индексом Уолда) и, следовательно, невозможно получить CI для наблюдаемой пропорции в замкнутой форме. Если мы предположим, что p выбрано из бета-распределения, то все будет намного проще, потому что число успехов будет следовать бета-биномиальному распределению. Мы должны будем предположить, что нет никакой неопределенности в оцененных параметрах бета, α и β .ппαβ

Есть три вопроса:

1) Теоретический: нормально ли использовать только точечные оценки бета-параметров? Я знаю, что для создания КИ для будущего наблюдения в множественной линейной регрессии

Yзнак равноИкс'β+ε,ε~N(0,σ2)

они делают это по отношению к ошибке дисперсии, . Я понимаю (поправьте меня, если я ошибаюсь), что оправдание состоит в том, что на практике σ 2 оценивается с гораздо большей точностью, чем коэффициенты регрессии, и мы не добьемся большого успеха, пытаясь учесть неопределенность σ 2 . Применимо ли подобное обоснование к оцененным бета-параметрам α и β ?σ2σ2σ2αβ

2) Какой пакет лучше (R: gamlss-bb, betareg, aod? У меня также есть доступ к SAS).

3) Учитывая предполагаемые бета-параметры, существует ли (приблизительный) ярлык для получения квантилей (2,5%, 97,5%) для подсчета будущих успехов или, что еще лучше, для доли будущих успехов при бета-биномиальном распределении.


На первый вопрос: да, это действительная вещь, которую делают люди, она называется «Эмпирический байесовский»: en.wikipedia.org/wiki/Empirical_Bayes_method
Пол

1
Я не думаю, что использование метода XYZ для оценки параметра модели может автоматически означать, что можно игнорировать неопределенность оценки при создании КИ для будущего наблюдения. Например, в множественной линейной регрессии они используют OLS вместо EB, и неопределенность в игнорируется. Это почему? Кроме того, эта статья Wiki никогда не предполагает, что в EB точность оценки гиперпараметров верхнего уровня обычно настолько выше, что их можно считать фиксированными для практических целей. σ
Джеймс

1
«Когда истинное распределение резко достигло максимума, интеграл, определяющий p ( θ y ), может не сильно измениться путем замены распределения вероятностей по η точечной оценкой η ∗, представляющей пик распределения». Верно ли это в вашем случае, зависит от специфики вашей проблемной области. п(η|Y)п(θ|Y)ηη*
Пол

2
Хороший вопрос! Вы не можете получить сводку, но как насчет использования вероятности профиля? См. Какие не байесовские методы существуют для прогнозного вывода? ,
Scortchi - Восстановить Монику

Ответы:


1

Я рассмотрю все 3 части вопроса.

Есть две взаимосвязанные проблемы, во-первых, метод, который вы используете, чтобы соответствовать модели регрессии в этом случае. Во-вторых, как интервал оценок от ваших оценок, чтобы предсказать новую оценку.

если ваши переменные ответа распределены биномиально, вы обычно используете либо логистическую регрессию, либо пробитную регрессию (glm с нормальным cdf в качестве функции ссылки).

Если вы выполняете логистическую регрессию, ответом будет отношение наблюдаемых подсчетов, деленное на известную верхнюю границу, т.е. Yя/Nя . Затем возьмите свои предикторы / ковариаты и поместите их в свой вызов R для функции glm. В возвращенном объекте есть все, что вам нужно для выполнения остальных ваших расчетов.

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

Для модели линейной регрессии формула для интервала прогнозирования:

Y^я±TN-пsY1+1N+(Икся-Икс¯)2(N-1)sИкс2

Вы можете использовать модель линейной регрессии в качестве приближения для GLM. Чтобы сделать это, вы бы использовали формулу линейной регрессии для линейной комбинации предикторов, прежде чем выполнять обратное преобразование связи, чтобы получить вероятности обратно по шкале 0-1. Код для этого встроен в функцию предиката.glm () R. Вот пример кода, который также создаст хороший сюжет. ( РЕДАКТИРОВАТЬ : этот код предназначен для доверительного интервала, а не для интервала прогнозирования)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

Вы можете сделать то же самое для любого glm, например, Пуассона, обратного гауссова, гамма и т. Д. В каждом случае делайте интервал прогнозирования в масштабе линейной комбинации предикторов. После того, как вы получите две конечные точки интервала прогнозирования, вы конвертируете эти конечные точки по обратной ссылке. Для каждого из упомянутых мною glms обратная ссылка может отличаться от логита, который я написал здесь. Надеюсь это поможет.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.