Дисперсия Коэна статистики

Коэна является одним из наиболее распространенных способов измерения размера эффекта ( см. Википедия ). Он просто измеряет расстояние между двумя средними значениями в единицах стандартного отклонения. Как мы можем получить математическую формулу оценки дисперсии Коэна ? $d$ $d$

Декабрь 2015 г. edit: С этим вопросом связана идея вычисления доверительных интервалов вокруг . В этой статье говорится, что $d$

σ_{d}^{2} = \frac{n_{+}}{n_{\times}} + \frac{d^{2}}{2 n_{+}}

$\sigma_{d}^2 = \dfrac{n_{+}}{n_{\times}} + \dfrac{d^2}{2n_{+}}$

где - сумма двух размеров выборки, а - произведение двух размеров выборки. $n_{+}$ $n_{\times}$

Как получается эта формула?

variance effect-size cohens-d

— JRK
источник

@Clarinetist: Это несколько спорно редактировать вопрос другого человека , чтобы добавить больше вещества и больше вопросов к нему (в отличие от улучшения формулировки). Я позволил себе одобрить ваше редактирование (учитывая, что вы поместили щедрое вознаграждение и я думаю, что ваше редактирование действительно улучшит вопрос), но другие могут решить откатиться назад.

— говорит амеба, восстанови Монику

@amoeba Нет проблем. Пока есть формула для (которой раньше не было) и ясно, что мы ищем математический вывод формулы, это нормально.

σ_{d}^{2}

$\sigma^2_d$

— Кларнетист

Я думаю, что знаменатель второй дроби должен быть . Смотрите мой ответ ниже.

2 (n_{+} - 2)

$2(n_{+}-2)$

Обратите внимание, что выражение дисперсии в вопросе является приближенным. Хеджес (1981) вывел большую выборочную дисперсию и аппроксимации в общей обстановке (т. Е. Множественные эксперименты / исследования), и мой ответ в значительной степени идет по выводам в статье. $d$

Во-первых, мы будем использовать следующие предположения:

Давайте предположим, что у нас есть две независимые группы лечения, (лечение) и (контроль). Пусть и будут баллами / ответами / кем бы то ни было от субъекта в группе и субъекта в группе соответственно. $T$ $C$ $Y_{Ti}$ $Y_{Cj}$ $i$ $T$ $j$ $C$

Мы предполагаем, что ответы обычно распределены, а группы лечения и контроля имеют общую разницу, т.е.

\begin{aligned} Y_{T i} & \sim N (μ_{T}, σ^{2}), i = 1, \dots n_{T} \\ Y_{C j} & \sim N (μ_{C}, σ^{2}), j = 1, \dots n_{C} \end{aligned}

$\begin{align*} Y_{Ti} &\sim N(\mu_T, \sigma^2), \quad i = 1, \dots n_T \\ Y_{Cj} &\sim N(\mu_C, \sigma^2), \quad j = 1, \dots n_C \end{align*}$

Размер эффекта, который мы хотим оценить в каждом исследовании, равен . Оценка размера эффекта, который мы будем использовать: где - несмещенная выборочная дисперсия для группы . $\delta = \frac{\mu_T - \mu_C}{\sigma}$

d = \frac{{\bar{Y}}_{T} - {\bar{Y}}_{C}}{\sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2}}}

$\begin{equation*} d = \frac{\bar{Y}_T - \bar{Y}_C}{\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{n_T + n_C - 2}}} \end{equation*}$

S_{k}^{2}

$S_k^2$

k

$k$

Давайте рассмотрим свойства большой выборки . $d$

Во-первых, обратите внимание: и (не совпадают с моими обозначениями): и

{\bar{Y}}_{T} - {\bar{Y}}_{C} \sim N (μ_{T} - μ_{C}, σ^{2} \frac{n_{T} + n_{C}}{n_{T} n_{C}})

$\begin{equation*} \bar{Y}_T - \bar{Y}_C \sim N \Bigg( \mu_T - \mu_C, \,\sigma^2\frac{n_T + n_C}{n_T n_C} \Bigg) \end{equation*}$

\begin{matrix} (1) & \frac{(n_{T} - 1) S_{T}^{2}}{σ^{2} (n_{T} + n_{C} - 2)} = \frac{1}{n_{T} + n_{C} - 2} \frac{(n_{T} - 1) S_{T}^{2}}{σ^{2}} \sim \frac{1}{n_{T} + n_{C} - 2} χ_{n_{T} - 1}^{2} \end{matrix}

$\begin{equation} \frac{(n_T - 1)S_T^{2}}{\sigma^2(n_T + n_C - 2)} = \frac{1}{n_T + n_C - 2}\frac{(n_T - 1)S_T^{2}}{\sigma^2} \sim \frac{1}{n_T + n_C- 2}\chi_{n_T - 1}^2 \tag{1} \end{equation}$

\begin{matrix} (2) & \frac{(n_{C} - 1) S_{C}^{2}}{σ^{2} (n_{T} + n_{C} - 2)} = \frac{1}{n_{T} + n_{C} - 2} \frac{(n_{C} - 1) S_{C}^{2}}{σ^{2}} \sim \frac{1}{n_{T} + n_{C} - 2} χ_{n_{C} - 1}^{2} \end{matrix}

$\begin{equation} \frac{(n_C - 1)S_C^{2}}{\sigma^2(n_T + n_C - 2)} = \frac{1}{n_T + n_C - 2}\frac{(n_C - 1)S_C^{2}}{\sigma^2} \sim \frac{1}{n_T + n_C- 2}\chi_{n_C - 1}^2 \tag{2} \end{equation}$

Уравнения (1) и (2) приводят к тому, что (опять же, с моими обозначениями):

\frac{1}{σ^{2}} \frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2} \sim \frac{1}{n_{T} + n_{C} - 2} χ_{n_{T} + n_{C} - 2}^{2}

$\begin{equation*} \frac{1}{\sigma^2}\frac{(n_T - 1)S_T^{2} + (n_C - 1)S_C^{2}}{n_T + n_C - 2} \sim \frac{1}{n_T + n_C - 2}\chi_{n_T + n_C - 2}^2 \end{equation*}$

Теперь немного умной алгебры: где

\begin{aligned} d & = \frac{{\bar{Y}}_{T} - {\bar{Y}}_{C}}{\sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2}}} \\ = \frac{{(σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}})}^{- 1} ({\bar{Y}}_{T} - {\bar{Y}}_{C})}{{(σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}})}^{- 1} \sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2}}} \\ = \frac{\frac{({\bar{Y}}_{T} - {\bar{Y}}_{C}) - (μ_{T} - μ_{C})}{σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}}} + \frac{μ_{T} - μ_{C}}{σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}}}}{{(\sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}})}^{- 1} \sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{σ^{2} (n_{T} + n_{C} - 2)}}} \\ = \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}} (\frac{θ + δ \sqrt{\frac{n_{T} n_{C}}{n_{T} + n_{C}}}}{\sqrt{\frac{V}{ν}}}) \end{aligned}

$\begin{align*} d &= \frac{\bar{Y}_T - \bar{Y}_C}{\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{n_T + n_C - 2}}} \\\\ &= \frac{\left(\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}\right)^{-1}(\bar{Y}_T - \bar{Y}_C)}{\left(\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}\right)^{-1}\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{n_T + n_C - 2}}} \\\\ &= \frac{\frac{(\bar{Y}_T - \bar{Y}_C) - (\mu_T - \mu_C)}{\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}} + \frac{\mu_T - \mu_C}{\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}}}{\left(\sqrt{\frac{n_T + n_C}{n_T n_C}}\right)^{-1}\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{\sigma^2(n_T + n_C - 2)}}} \\\\ &= \sqrt{\frac{n_T + n_C}{n_T n_C}}\left(\frac{\theta + \delta\sqrt{\frac{n_T n_C}{n_T + n_C}}}{\sqrt{\frac{V}{\nu}}}\right) \end{align*}$

θ \sim N (0, 1)

$\theta \sim N(0,1)$ , и . Таким образом, равно раз переменной, которая следует за нецентральным t-распределением с степенями свободы и параметром нецентральности .

V \sim χ_{ν}^{2}

$V \sim \chi^2_{\nu}$

ν = n_{T} + n_{C} - 2

$\nu = n_T+n_C-2$

d

$d$

\sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}}

$\sqrt{\frac{n_T + n_C}{n_T n_C}}$

n_{T} + n_{C} - 2

$n_T + n_C - 2$

δ \sqrt{\frac{n_{T} n_{C}}{n_{T} + n_{C}}}

$\delta\sqrt{\frac{n_T n_C}{n_T + n_C}}$

Используя моментные свойства нецентрального распределения $t$ , следует: где

\begin{matrix} (3) & V a r (d) = \frac{(n_{T} + n_{C} - 2)}{(n_{T} + n_{C} - 4)} \frac{(n_{T} + n_{C})}{n_{T} n_{C}} (1 + δ^{2} \frac{n_{T} n_{C}}{n_{T} + n_{C}}) - \frac{δ^{2}}{b^{2}} \end{matrix}

$\begin{equation*} \mathrm{Var}(d) = \frac{(n_T + n_C - 2)}{(n_T + n_C - 4)}\frac{(n_T + n_C)}{n_T n_C}(1+ \delta^2\frac{n_T n_C}{n_T + n_C}) - \frac{\delta^2}{b^2} \tag{3} \end{equation*}$

b = \frac{Γ (\frac{n_{T} + n_{C} - 2}{2})}{\sqrt{\frac{n_{T} + n_{C} - 2}{2}} Γ (\frac{n_{T} + n_{C} - 3}{2})} \approx 1 - \frac{3}{4 (n_{T} + n_{C} - 2) - 1}

$\begin{equation*} b = \frac{\Gamma\left(\frac{n_T + n_C - 2}{2}\right)}{\sqrt{\frac{n_T+n_C-2}{2}}\Gamma\left(\frac{n_T+n_C-3}{2}\right)} \approx 1 - \frac{3}{4(n_T+n_C-2)-1} \end{equation*}$

Таким образом, уравнение (3) обеспечивает точную дисперсию большой выборки. Обратите внимание, что несмещенной оценкой для является с дисперсией: $\delta$ $b d$

V a r (b d) = b^{2} \frac{(n_{T} + n_{C} - 2)}{(n_{T} + n_{C} - 4)} \frac{(n_{T} + n_{C})}{n_{T} n_{C}} (1 + δ^{2} \frac{n_{T} n_{C}}{n_{T} + n_{C}}) - δ^{2}

$\begin{equation*} \mathrm{Var}(bd) = b^2\frac{(n_T + n_C - 2)}{(n_T + n_C - 4)}\frac{(n_T + n_C)}{n_T n_C}(1+ \delta^2\frac{n_T n_C}{n_T + n_C}) - \delta^2 \end{equation*}$

Для больших степеней свободы (т.е. больших ) дисперсия нецентрального изменяющегося с степенями свободы и параметром нецентральности может быть аппроксимирована как ( Джонсон, Коц, Балакришнан, 1995 ). Таким образом, мы имеем: $n_T+n_C-2$ $t$ $\nu$ $p$ $1 + \frac{p^2}{2\nu}$

\begin{aligned} V a r (d) & \approx \frac{n_{T} + n_{C}}{n_{T} n_{C}} (1 + \frac{δ^{2} (\frac{n_{T} n_{C}}{n_{T} + n_{C}})}{2 (n_{T} + n_{C} - 2)}) \\ = \frac{n_{T} + n_{C}}{n_{T} n_{C}} + \frac{δ^{2}}{2 (n_{T} + n_{C} - 2)} \end{aligned}

$\begin{align*} \mathrm{Var}(d) &\approx \frac{n_T + n_C}{n_T n_C}\left(1 + \frac{\delta^2\left(\frac{n_T n_C}{n_T + n_C}\right)}{2(n_T+n_C-2)}\right) \\\\ &= \frac{n_T + n_C}{n_T n_C} + \frac{\delta^2}{2(n_T+n_C-2)} \end{align*}$

Подключите наш оценщик для и все готово. $\delta$

Очень, очень хороший вывод. Всего лишь несколько вопросов: 1) не могли бы вы уточнить, что означает запись (я знаю, что это связано с разницей выборки означает, но как они могут иметь одинаковый индекс?)? 2) Не могли бы вы уточнить, как выполняется приближение для (мне не нужны все детали, источник в порядке и, возможно, краткое объяснение)? В остальном я вполне доволен этим. (+1) Это также согласуется с наблюдением, которое я сделал, что не следует нормальному распределению, вопреки объяснению в связанной статье в OP.

{\bar{Y}}_{i}^{T} - {\bar{Y}}_{i}^{C}

$\bar{Y}^{T}_{i} - \bar{Y}^{C}_{i}$

b

$b$

d

$d$

— Кларнетист

@ Clarinetist Спасибо! 1) Как они могут иметь одинаковый индекс? Опечатка, вот как! : P Они - артефакт моего первого варианта ответа. Я исправлю это. 2) Я вытащил его из газеты «Хедж» - пока не знаю, откуда он, но еще подумаю.

вывод, но, к вашему сведению, числитель должен быть .

b

$b$

Γ (\frac{n_{T} + n_{C} - 2}{2})

$\Gamma\left(\dfrac{n_T+n_C-2}{2}\right)$

— Кларнетист

Деривация предоставлена для справки: math.stackexchange.com/questions/1564587/… . Оказывается, есть вероятность ошибки знака.

— Кларнетист

@mike: очень впечатляющий ответ. Спасибо, что нашли время, чтобы поделиться с нами.

— Дени Кузино