Как рассчитать доверительные интервалы для соотношений?

12

Рассмотрим эксперимент, который выводит отношение между 0 и 1. То, как это соотношение получается, не должно быть уместным в этом контексте. Он был разработан в предыдущей версии этого вопроса , но удален для ясности после обсуждения мета . $X_i$

Этот эксперимент повторяется раз, пока мало (около 3-10). Предполагается, что независимы и одинаково распределены. Исходя из этого, мы оцениваем среднее значение путем вычисления среднего значения , но как рассчитать соответствующий доверительный интервал ? $n$ $n$ $X_i$ $\overline X$ $[U,V]$

При использовании стандартного подхода для расчета доверительных интервалов иногда больше 1. Однако моя интуиция заключается в том, что правильный доверительный интервал ... $V$

... должно быть в пределах 0 и 1
... должно уменьшаться с увеличением $n$
... примерно в том порядке, который рассчитан с использованием стандартного подхода
... рассчитывается математически обоснованным методом

Это не абсолютные требования, но я хотел бы, по крайней мере, понять, почему моя интуиция ошибочна.

Расчеты на основе существующих ответов

Далее доверительные интервалы, полученные из существующих ответов, сравниваются для . $\{X_i\} = \{0.985,0.986,0.935,0.890,0.999\}$

Стандартный подход (он же «Школа математики»)

$\overline X = 0.959$ , , таким образом, доверительный интервал 99% составляет . Это противоречит интуиции 1. $\sigma^2 = 0.0204$ $[0.865,1.053]$

Обрезка (предложено @soakley в комментариях)

Простое использование стандартного подхода и предоставление качестве результата легко. Но мы можем сделать это? Я еще не уверен, что нижняя граница просто остается постоянной (-> 4.) $[0.865,1.000]$

Модель логистической регрессии (предложено @Rose Hartman)

Преобразованные данные: результате его преобразование обратно приводит к . Очевидно, что 6,90 является выбросом для преобразованных данных, в то время как 0,99 не для нетрансформированных данных, что приводит к очень большому доверительному интервалу . (-> 3.) $\{4.18,4.25,2.09,2.66,6.90\}$ $[0.173,7.87]$ $[0.543,0.999]$

Доверительный интервал биномиальной пропорции (предложено @Tim)

Подход выглядит неплохо, но, к сожалению, он не подходит для эксперимента. Простое объединение результатов и интерпретация их как одного большого повторного эксперимента Бернулли, как предлагает @ZahavaKor, приводит к следующему:

$985+986+890+935+999 = 4795$ из в общей сложности. Подавая это в адж. Калькулятор Вальда дает . Это не кажется реалистичным, потому что ни один находится внутри этого интервала! (-> 3.) $5*1000$ $[0.9511,0.9657]$ $X_i$

Начальная загрузка (предложено @soakley)

При мы имеем 3125 возможных перестановок. Взяв среднего значения перестановок, мы получим . Видать не что плохо, хотя я бы ожидать больший интервал (-> 3). Тем не менее, для каждой конструкции он никогда не превышает . Таким образом, для небольшого образца он будет скорее расти, чем уменьшаться при увеличении (-> 2). Это, по крайней мере, то, что происходит с образцами, приведенными выше. $n=5$ $\frac{3093}{3125} = 0.99$ $[0.91,0.99]$ $[min(X_i),max(X_i)]$ $n$

confidence-interval

— koalo
источник

Вы правы в своем втором подходе. Я не уверен насчет первого - это не указано четко в статистических терминах. Насколько я знаю, воспроизводимость означает, что один и тот же эксперимент проводится другим исследователем, и они получают схожие результаты. Вам нужно более четко указать свою цель, предпочтительно с точки зрения статистической гипотезы относительно параметра, который вы пытаетесь оценить. На мой взгляд, использование термина «воспроизводимость» слишком расплывчато.

— Захава Кор

Вы правы, повторяемость - это правильный термин, а не воспроизводимость. Я постараюсь построить определение в статистических терминах.

— Коало

@ZahavaKor Я удалил свой недостаточно конкретный пример о повторяемости и указал свое реальное приложение, надеясь, что оно прояснит мою проблему и не смущает.

— Коало

Если вы действительно отбираете образцы размером 1000, значит, вы не правильно применили метод повторной выборки. Но с таким большим количеством данных вам не требуется повторная выборка, и вы должны получить хорошие результаты (то есть узкие доверительные интервалы) со стандартным биномиальным подходом, как вы обнаружили выше. То, что ваши отдельные точки данных не находятся в результирующем интервале, не означает, что интервал является неправильным.

— Soakley

1

Ну, подумай об этом. Вы пробуете 10 предметов и получаете 9 успехов. Я пробую 1000 и получаю 900 успехов. У кого будет более точная оценка среднего значения? Попробуйте использовать формулу, на которую ссылается Тим, если интуиция еще не достигнута. Итак, в последнем примере по вашему вопросу размер выборки не 5, а 5000!

— Soakley

6

Во-первых, чтобы уточнить, с чем вы имеете дело, это не совсем биномиальное распределение, как предполагает ваш вопрос (вы называете это экспериментом Бернулли). Биноминальное распределение дискретно - результат - либо успех, либо неудача. Ваш результат - это соотношение каждый раз, когда вы запускаете свой эксперимент , а не набор успехов и неудач, по которым вы затем рассчитываете одно суммарное соотношение. Из-за этого методы вычисления доверительного интервала биномиальной пропорции отбросят много вашей информации. И все же вы правы, что проблематично трактовать это так, как будто оно нормально распределено, поскольку вы можете получить КИ, который выходит за пределы возможного диапазона вашей переменной.

Я рекомендую думать об этом с точки зрения логистической регрессии. Запустите модель логистической регрессии с вашей переменной отношения в качестве результата и без предикторов. Перехват и его CI дадут вам то, что вам нужно в логитах, а затем вы сможете преобразовать его обратно в пропорции. Вы также можете просто выполнить логистическое преобразование самостоятельно, рассчитать КИ и затем преобразовать обратно в исходный масштаб. Мой питон ужасен, но вот как вы можете сделать это в R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

data_logits <- log(data/(1-data)) 
hist(data_logits)

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Вот нижняя и верхняя границы для 99% ДИ для этих данных:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

— Роуз Хартман
источник

Это звучит как хороший подход, однако результаты не такие, как я ожидал бы интуитивно: data_logits для 0.99,0.94,0.94 равен 4.59,2.75,2,75, что дает доверительный интервал [-2.73,9.47]. Преобразование этого обратно дает [0.061,0.999] - намного больше, чем я ожидал.

— Коало

1

Всего за три наблюдения следует ожидать очень большой доверительный интервал. Из вашей гистограммы похоже, что у вас есть намного больше, чем три наблюдения - я предположил, что ваш пример с 0,99,0,94,0,94 был только для иллюстрации. Если ваш фактический размер выборки равен трем, я вообще не рекомендую рассчитывать доверительные интервалы (или, в этом отношении, средние значения).

— Роуз Хартман

Приведенная выше гистограмма взята из скрипта python для иллюстрации моей проблемы. Я не могу получить столько измерений из реального эксперимента. По крайней мере, не для каждой комбинации параметров. Я согласен, что 3 может быть слишком маленьким и, возможно, около 10 будет возможно в окончательной оценке, но, конечно, не намного больше. Так что я должен сделать с этим, чтобы продемонстрировать, что мне не просто повезло получить одно измерение, но что повторение эксперимента не дает совершенно других результатов?

— Коало

@RoseHartman Это хорошее четкое описание, но было бы также неплохо увидеть ваш метод, примененный к образцу данных (n = 5) в вопросе.

— ПМ.

@scitamehtam Я написал свой ответ до того, как Коало предоставил данные примера и пояснил, что размер выборки будет 10 или меньше наблюдений. С тех пор koalo обновил исходный вопрос, включив обработанные примеры из каждого метода ответа с данными n = 5, что очень полезно.

— Роуз Хартман

3

Возможно, вы захотите попробовать пересэмплирование / начальную загрузку. Давайте посмотрим на простой случай, который вы упомянули.

С 3 точками данных 0,99, 0,94 и 0,94 вы бы даже не делали повторную выборку, потому что вы можете просто перечислить все 27 возможных перестановок, найти среднее значение в каждом случае, а затем отсортировать средние значения.

$25/27=$ $26/27=$

$n$

Вопрос здесь: Как мы можем создать доверительный интервал для параметра теста перестановки? дает более подробную информацию, в том числе некоторый код R.

— soakley
источник

Как написано в другом комментарии, n не будет «намного больше 3», но, возможно, n = 10 возможно при необходимости. Хотя этот подход гарантирует, что мой доверительный интервал не выйдет за пределы 1,0, он, похоже, значительно недооценивает доверительный интервал, заданный другими методами. Фактически, он никогда не будет больше интервала [min, max].

— Коало

Как часто вы думаете, среднее значение будет за пределами [мин, макс]?

— Soakley

Вероятно, редко, но значит ли это, что если интервал [min, max] достаточно мал, чтобы доказать поддержку моих утверждений, я могу забыть о доверительном интервале и просто указать [min, max]? По моему опыту, для небольших размеров выборки доверительный интервал довольно велик по сравнению с [min, max].

— Коало

2

Биномиальные доверительные интервалы были предметом дискуссий статистиков в течение длительного времени. Ваша проблема учитывает коэффициент менее 100%, но он становится еще более проблематичным, если мы используем 100%. Один проницательный способ задать вопрос:

Учитывая, что солнце взошло каждый день в течение последних 2000 лет, какова вероятность того, что оно взойдет завтра?

$p=1$

Есть несколько методов для расчета этих хвостов. Я бы порекомендовал проверить математику в Википедии , или, если вы просто хотите получить ответ, поищите калькулятор биномиального интервала, подобный этому (который, как оказалось, также имеет некоторые дополнительные объяснения по математике).

— Тим
источник

Это очень близко к тому, что я ищу, но формулы, похоже, рассчитывают только доверительный интервал для результата одного прогона моего эксперимента, а не доверительный интервал для среднего значения нескольких экспериментов.

— Коало

Неважно, если у вас один прогон или несколько прогонов, пока знаменатель (в вашем примере 100 пакетов) остается одинаковым во всех прогонах. Выполнение 3 экспериментов по 100 каждый математически аналогично проведению одного эксперимента с 300 пакетами, и вы можете использовать биномиальные формулы, но с n = 300, а не n = 100. Если знаменатели не равны, вам нужно найти средневзвешенное значение (взвешенное по n), и новое n будет суммой n.

— Захава Кор

@ZahavaKor Поскольку комментарий слишком длинный, я добавил правку в свой вопрос. Я не говорю, что это неправильно, но это не соответствует моему нынешнему пониманию.

— Коало

2

Байесовский подход:

$B$ $B$

— Нил Г
источник

p = n / m

$p=n/m$

p

$p$