Объединение информации из нескольких исследований для оценки среднего значения и дисперсии нормально распределенных данных

21

Я рассмотрел ряд документов, в каждом из которых сообщалось о наблюдаемом среднем значении и SD измерения в соответствующей выборке известного размера, . Я хочу высказать наиболее вероятное предположение о вероятном распределении той же меры в новом исследовании, которое я проектирую, и о том, насколько неопределенны эти предположения. Я счастлив предположить, что ). $X$ $n$ $X \sim N(\mu, \sigma^2$

Моей первой мыслью был метаанализ, но в моделях обычно использовались точечные оценки и соответствующие доверительные интервалы. Тем не менее, я хочу сказать кое-что о полном распределении $X$ , которое в этом случае также включало бы предположение о дисперсии, $\sigma^2$ .

Я читал о возможных байейсовских подходах к оценке полного набора параметров данного распределения в свете предшествующих знаний. Как правило, это имеет больше смысла для меня, но у меня нет опыта байесовского анализа. Это также кажется простой, относительно простой проблемой, чтобы порезаться.

1) Учитывая мою проблему, какой подход имеет больше всего смысла и почему? Метаанализ или байесовский подход?

2) Если вы считаете, что байесовский подход является лучшим, можете ли вы указать мне способ реализации этого (предпочтительно в R)?

Связанный вопрос

правок:

Я пытался разобраться в этом, как мне кажется, в «простой» байесовской манере.

Как я уже говорил выше, меня интересует не только среднее значение $\mu$ , но и дисперсия $\sigma^2$ в свете предшествующей информации, т.е. $P(\mu, \sigma^2|Y)$

Опять же, я ничего не знаю о Байянизме на практике, но это не заняло много времени, чтобы обнаружить, что апостериор нормального распределения с неизвестным средним и дисперсией имеет решение в замкнутой форме через сопряжение , с нормальным распределением обратной гаммы.

Проблема переформулируется как $P(\mu, \sigma^2|Y) = P(\mu|\sigma^2, Y)P(\sigma^2|Y)$ .

$P(\mu|\sigma^2, Y)$ оценивается с нормальным распределением; $P(\sigma^2|Y)$ с обратным гамма-распределением.

Мне потребовалось некоторое время, чтобы обдумать это, но по этим ссылкам ( 1 , 2 ) я смог, я думаю, разобраться, как это сделать в R.

Я начал с фрейма данных, составленного из строки для каждого из 33 исследований / выборок, и столбцов для среднего значения, дисперсии и размера выборки. Я использовал среднее значение, дисперсию и размер выборки из первого исследования в строке 1 в качестве моей предварительной информации. Затем я обновил это с информацией из следующего исследования, вычислил соответствующие параметры и отобрал из нормальной-обратной гаммы, чтобы получить распределение и . Это повторяется до тех пор, пока не будут включены все 33 исследования. $\mu$ $\sigma^2$

# Loop start values values

  i <- 2
  k <- 1

# Results go here

  muL      <- list()  # mean of the estimated mean distribution
  varL     <- list()  # variance of the estimated mean distribution
  nL       <- list()  # sample size
  eVarL    <- list()  # mean of the estimated variance distribution
  distL    <- list()  # sampling 10k times from the mean and variance distributions

# Priors, taken from the study in row 1 of the data frame

  muPrior  <- bayesDf[1, 14]    # Starting mean
  nPrior   <- bayesDf[1, 10]    # Starting sample size
  varPrior <- bayesDf[1, 16]^2  # Starting variance

  for (i in 2:nrow(bayesDf)){

# "New" Data, Sufficient Statistics needed for parameter estimation

    muSamp    <- bayesDf[i, 14]          # mean
    nSamp     <- bayesDf[i, 10]          # sample size
    sumSqSamp <- bayesDf[i, 16]^2*(nSamp-1)  # sum of squares (variance * (n-1))

# Posteriors

    nPost   <- nPrior + nSamp
    muPost  <- (nPrior * muPrior + nSamp * muSamp) / (nPost)  
    sPost   <- (nPrior * varPrior) + 
                sumSqSamp + 
               ((nPrior * nSamp) / (nPost)) * ((muSamp - muPrior)^2)
    varPost <- sPost/nPost
    bPost   <- (nPrior * varPrior) + 
                sumSqSamp + 
               (nPrior * nSamp /  (nPost)) * ((muPrior - muSamp)^2)
# Update 

    muPrior   <- muPost
    nPrior    <- nPost
    varPrior  <- varPost

# Store

    muL[[i]]   <-  muPost
    varL[[i]]  <-  varPost
    nL[[i]]    <-  nPost
    eVarL[[i]] <- (bPost/2) / ((nPost/2) - 1)

# Sample

    muDistL  <- list()  
    varDistL <- list()

    for (j in 1:10000){
      varDistL[[j]] <- 1/rgamma(1, nPost/2, bPost/2)
      v             <- 1/rgamma(1, nPost/2, bPost/2)
      muDistL[[j]]  <- rnorm(1, muPost, v/nPost)
    }

# Store 

    varDist    <- do.call(rbind, varDistL)
    muDist     <- do.call(rbind, muDistL)
    dist       <- as.data.frame(cbind(varDist, muDist))
    distL[[k]] <- dist

# Advance

    k <- k+1 
    i <- i+1

  }

  var     <- do.call(rbind, varL)
  mu      <- do.call(rbind, muL)
  n       <- do.call(rbind, nL)
  eVar    <- do.call(rbind, eVarL)
  normsDf <- as.data.frame(cbind(mu, var, eVar, n)) 
  colnames(seDf) <- c("mu", "var", "evar", "n")
  normsDf$order <- c(1:33)

Вот схема пути, показывающая, как и изменяются при добавлении каждого нового образца. $E(\mu)$ $E(\sigma^2)$

введите описание изображения здесь

Здесь приведены значения, основанные на выборке из оценочных распределений для среднего значения и дисперсии при каждом обновлении.

введите описание изображения здесь

Я просто хотел добавить это на случай, если это будет полезно для кого-то другого, и чтобы знающие люди могли сказать мне, было ли это разумным, ошибочным и т. Д.

bayesian normal-distribution meta-analysis

— DL Dahly
источник

11

Два подхода (метаанализ и байесовское обновление) на самом деле не так уж различны. Метааналитические модели на самом деле часто оформляются в виде байесовских моделей, поскольку идея добавления свидетельства к предшествующим знаниям (возможно, довольно расплывчатым) об этом явлении естественным образом поддается метаанализу. Статья, которая описывает это соединение:

Brannick, MT (2001). Последствия эмпирического байесовского мета-анализа для проверки достоверности. Журнал прикладной психологии, 86 (3) , 468-480.

(автор использует корреляции в качестве показателя результата для мета-анализа, но принцип одинаков независимо от показателя).

Более общая статья о байесовских методах метаанализа:

Саттон, AJ & Abrams, KR (2001). Байесовские методы в метаанализе и синтезе доказательств. Статистические методы в медицинских исследованиях, 10 (4) , 277-303.

Похоже, что после (в дополнение к некоторой комбинированной оценке) находится интервал прогнозирования / достоверности, который описывает, где в будущем исследовании вероятнее всего упадет истинный результат / эффект. Такой интервал можно получить из «традиционного» метаанализа или из байесовской метааналитической модели. Традиционный подход описан, например, в:

Riley, RD, Higgins, JP, & Deeks, JJ (2011). Интерпретация метаанализа случайных эффектов. British Medical Journal, 342 , d549.

В контексте байесовской модели (например, модель случайных эффектов, описываемая уравнением 6 в статье Sutton & Abrams, 2001), можно легко получить апостериорное распределение , где - истинное результат / эффект в м исследовании (поскольку эти модели обычно оцениваются с использованием MCMC, нужно просто отслеживать цепочку после подходящего периода выгорания). Из этого апостериорного распределения можно получить интервал достоверности. $\theta_i$ $\theta_i$ $i$ $\theta_i$

— Wolfgang
источник

3

В дополнение к этому, многие результаты Байеса были сделаны из результатов мета-анализа.

— Fomite

2

Если я правильно понимаю ваш вопрос, то это отличается от обычной настройки мета-анализа тем, что вы хотите оценить не только общее среднее значение, но и общую дисперсию. Таким образом, модель выборки для необработанных данных является для наблюдения из исследования . Если это правильно, то я думаю, что MLE - это просто среднее значение выборки, то есть MLE для немного сложнее, потому что он включает в себя как дисперсию как внутри, так и между исследованиями (подумайте об одностороннем ANOVA). Но просто объединение выборочных отклонений тоже работает (т. Е. Является объективной оценкой $y_{ij} \sim N(\mu, \sigma^2)$ $i = 1,...n_j$ $j = 1,...,K$ $\mu$

\hat{μ} знак равно \frac{1}{N} Σ_{J знак равно 1}^{К} N_{J} {\bar{Y}}_{J}, N знак равно Σ_{J знак равно 1}^{К} N_{J},

$\hat\mu = \frac{1}{N} \sum_{j=1}^K n_j \bar{y}_j,\qquad N = \sum_{j=1}^K n_j.$

σ

$\sigma$

σ^{2}

$\sigma^2$ ): Если большое, не слишком большое, и вы используя слабые априорные значения, тогда байесовские оценки должны быть очень похожи на эти.

{\tilde{σ}}^{2} знак равно \frac{1}{N - К} Σ_{J знак равно 1}^{К} (N_{J} - 1) s_{J}^{2}

$\tilde\sigma^2 = \frac{1}{N - K}\sum_{j=1}^K (n_j - 1) s_j^2$

N

$N$

K

$K$

— ПУСТО
источник