Доверительный интервал вокруг соотношения двух пропорций

У меня есть две пропорции (например, рейтинг кликов (CTR) по ссылке в макете элемента управления и CTR по ссылке в экспериментальном макете), и я хочу рассчитать 95% доверительный интервал для отношения этих пропорций.

Как мне это сделать? Я знаю, что могу использовать дельта-метод для расчета дисперсии этого отношения, но я не уверен, что делать, кроме этого. Что я должен использовать в качестве средней точки доверительного интервала (мой наблюдаемый коэффициент или ожидаемый коэффициент, который отличается), и сколько стандартных отклонений вокруг этого коэффициента я должен взять?

Должен ли я использовать дисперсию дельта-метода вообще? (Меня действительно не волнует дисперсия, просто доверительный интервал.) Должен ли я использовать теорему Филлера , используя Случай 1 (так как я делаю пропорции, я предполагаю, что удовлетворяю требованию нормального распределения)? Должен ли я просто рассчитать пример начальной загрузки?

confidence-interval

— raegtin
источник

У вас есть фундаментальная проблема: у большинства пропорций есть положительный шанс быть равным нулю, откуда у отношения (независимых пропорций) есть положительный шанс быть неопределенным. Это может представлять серьезные трудности для приближенных методов (таких как дельта-метод) и предполагает, что нормальные приближения следует рассматривать более скептически и проверять более строго, чем обычно.

— whuber

Джозеф Л. Флейс, Брюс Левин, Менги Чо Пайк: Статистические методы для коэффициентов и пропорций [1] обсуждает Относительный риск, который является частным двух норм. У меня нет книги, поэтому я могу идти только по предметному указателю и оглавлению, но, возможно, в вашей библиотеке это есть. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428

— cbeleites поддерживает Монику

Конечно, процентиль бутстрап будет лучшим методом?

— Питер Эллис

Стандартный способ сделать это в эпидемиологии (где отношение пропорций обычно называют отношением риска ) состоит в том, чтобы сначала преобразовать отношение логарифмически, рассчитать доверительный интервал в логарифмической шкале, используя дельта-метод и предполагая нормальное распределение, затем преобразовать обратно. Это работает лучше при умеренных размерах выборки, чем при использовании дельта-метода в нетрансформированном масштабе, хотя все равно будет вести себя плохо, если число событий в любой группе очень мало, и завершится неудачей, если в обеих группах нет событий.

Если в двух группах имеются общие успехи и из количества и , то очевидной оценкой отношения пропорций является $x_1$ $x_2$ $n_1$ $n_2$

\hat{θ} знак равно \frac{{Икс}_{1} / N_{1}}{{Икс}_{2} / N_{2}},

$\hat\theta = \frac{x_1/n_1}{x_2/n_2}.$

Используя дельта-метод и предполагая, что две группы независимы, а успехи распределены биномиально, вы можете показать, что Получение квадратного корня этого дает стандартную ошибку . Предполагая, что нормально распределена, 95% доверительный интервал для равен Расширение этого дает 95% доверительный интервал для отношения пропорций как

Var (журнал \hat{θ}) знак равно 1 / {Икс}_{1} - 1 / N_{1} + 1 / {Икс}_{2} - 1 / N_{2},

$\operatorname{Var}(\log \hat\theta) = 1/x_1 - 1/n_1 +1/x_2 - 1/n_2.$

SE (\log \hat{θ})

$\operatorname{SE}(\log \hat\theta)$

\log \hat{θ}

$\log \hat\theta$

\log θ

$\log \theta$

журнал \hat{θ} \pm 1,96 SE (журнал \hat{θ}),

$\log \hat\theta \pm 1.96 \operatorname{SE}(\log \hat\theta).$

θ

$\theta$

\hat{θ} ехр [\pm 1,96 SE (журнал \hat{θ})],

$\hat\theta \exp\left[ \pm1.96 \operatorname{SE}(\log\hat\theta)\right].$

— универсальный
источник

Это прекрасно работает, если и большие (несколько сотен и более), а и не слишком малы (около или более). В противном случае интервал имеет тенденцию быть слишком большим. Также необходим какой-то способ обработки случаев и . Оказывается, обе проблемы могут быть решены с помощью подхода, подобного коррекции непрерывности: добавьте к обоим , добавьте к обоим и продолжайте. Тогда этот CI на удивление хорош, если оба значения равны или больше, независимо

n_{1}

$n_1$

n_{2}

$n_2$

n_{1} p_{1}

$n_1 p_1$

n_{2} p_{2}

$n_2 p_2$

10

$10$

x_{2} = 0

$x_2=0$

x_{i} = n_{i}

$x_i=n_i$

1 / 2

$1/2$

x_{i}

$x_i$

1

$1$

n_{i}

$n_i$

p_{i} n_{i}

$p_i n_i$

4

$4$ размеров .

n_{i}

$n_i$

— whuber

@whuber: «подход, подобный коррекции непрерывности» - является ли использование 1/2, в частности, распространенным приемом? (В отличие от какого-то другого небольшого псевдосчета.) То, как вы это сформулировали, в некотором роде делает 1/2 звука принципиальным =) - так?

— raegtin

Интересный вопрос, раегтин. В этом случае нет: я экспериментировал, чтобы найти подходящее начальное значение (это означает «получается так»). 1/2 не является общепринятым; для определенных комбинаций и другие значения будут работать немного лучше. Теоретическое исследование распределения оценки может предложить другое начальное значение.

x_{i}

$x_i$

n_{i}

$n_i$

— whuber

Почему квадратный корень из дисперсии стандартная ошибка в этом случае, а не стандартное отклонение?

— Микко

@onestop Это реализовано в любом пакете R?

— Богдан Василеску