Как сравнивается сила логистической регрессии и t-критерия?

Является ли сила логистической регрессии и критерий Стьюдента эквивалентной? Если это так, то они должны быть «эквивалентными плотности данных», под которыми я подразумеваю, что одно и то же количество базовых наблюдений дает одинаковую мощность при фиксированной альфа-коэффициенте 0,05. Рассмотрим два случая:

[Параметрический t-критерий]: из биномиального наблюдения сделано 30 ничьих, и полученные значения усредняются. Это делается 30 раз для группы A (у которой биномиальный Pr равен 0,70) и 30 раз для группы B (у которого биномиальное Pr составляет 0,75). Это дает 30 средних на группу, которые представляют собой сводку 1800 тиражей из биномиального распределения. 58-й t-тест проводится для сравнения средств.
[Логистическая регрессия]: логистическая регрессия выполняется с использованием фиктивного закодированного наклона, представляющего членство в группе, и каждого из 1800 тиражей.

Мой вопрос состоит из двух частей:

При заданном альфа-значении 0,05 сила этих методологий будет одинаковой или разной? Почему? Как я могу это доказать?
Чувствителен ли ответ на вопрос 1 к размерам выборки, включенным в t-критерий, к размеру выборки каждой группы в t-критерии, базовым биномиальным вероятностям или к каким-либо другим факторам? Если так, как я могу знать (без моделирования), что мощность действительно отличается и какие изменения приведут к изменениям в силе? В качестве альтернативы предоставьте отработанный R-код, который решает проблему с помощью симуляции.

— russellpierce
источник

Ответы:

Если я правильно вычислил, логистическая регрессия асимптотически имеет ту же силу, что и t-критерий. Чтобы увидеть это, запишите его логарифмическую вероятность и вычислите ожидание его гессиана в его глобальном максимуме (его отрицательные оценки дисперсионно-ковариационной матрицы решения ML). Не беспокойтесь об обычной логистической параметризации: проще просто параметризовать ее с двумя этими вероятностями. Детали будут зависеть от того, как именно вы проверяете значимость коэффициента логистической регрессии (есть несколько методов).

То, что эти тесты имеют схожие степени, не должно вызывать удивления, поскольку теория хи-квадрат для оценок ML основана на нормальном приближении к логарифмической вероятности, а t-тест основан на нормальном приближении к распределениям пропорций. Суть в том, что оба метода дают одинаковые оценки двух пропорций, и обе оценки имеют одинаковые стандартные ошибки.

Фактический анализ может быть более убедительным. Давайте примем некоторую общую терминологию для значений в данной группе (A или B):

является вероятностью 1. $p$
- размер каждого набора розыгрышей. $n$
- количество сетов розыгрышей. $m$
- количество данных. $N = m n$
(равно или ) - это значение результата в наборе розыгрышей. $k_{ij}$ $0$ $1$ $j^\text{th}$ $i^\text{th}$
- общее количество единиц в тираже. $k_i$ $i^\text{th}$
общее количество единиц. $k$

Логистическая регрессия, по существу, является оценкой ML по . Его логарифм дается $p$

\log (L) = k \log (p) + (N - k) \log (1 - p) .

$\log(\mathbb{L}) = k \log(p) + (N-k) \log(1-p).$

Его производные по параметру имеют вид $p$

\frac{\partial \log (L)}{\partial p} = \frac{k}{p} - \frac{N - k}{1 - p} and

$\frac{\partial \log(\mathbb{L})}{ \partial p} = \frac{k}{p} - \frac{N-k}{1-p} \text{ and}$

- \frac{\partial^{2} \log (L)}{\partial p^{2}} = \frac{k}{p^{2}} + \frac{N - k}{(1 - p)^{2}} .

$-\frac{\partial^2 \log(\mathbb{L})}{\partial p^2} = \frac{k}{p^2} + \frac{N-k}{(1-p)^2}.$

Установка первого к нулю дает оценку М.Л. и закупорки , что в обратную втором выражении дает дисперсию , который является квадратом стандартной ошибки. ${\hat{p} = k/N}$ $\hat{p}(1 - \hat{p})/N$

Т статистика будет получена из оценок , основанных на данных , сгруппированных наборами дро; а именно, как разность средних (одна из группы A, а другая из группы B), деленная на стандартную ошибку той разницы, которая получается из стандартных отклонений средних. Давайте тогда посмотрим на среднее и стандартное отклонение для данной группы. Средние равно , который является идентичным ML оценивани . Рассматриваемое стандартное отклонение - это стандартное отклонение средств вытяжки; то есть это стандартное отклонение набора . Вот суть вопроса, поэтому давайте рассмотрим некоторые возможности. $k/N$ $\hat{p}$ $k_i/n$

Предположим , что данные не сгруппированы в дро вообще: то есть, и . являюсь ничьими средствами. Их выборки дисперсия равна раз . Из этого следует, что стандартная ошибка идентична стандартной ошибке ML, за исключением коэффициента $n = 1$ $m = N$ $k_{i}$ $N/(N-1)$ $\hat{p}(1 - \hat{p})$ , что по существу равнокогда. Поэтому, помимо этой крошечной разницы, любые тесты, основанные на логистической регрессии, будут такими же, как и t-тест, и мы получим практически одинаковую мощность. $\sqrt{N/(N-1)}$ $1$ $N = 1800$
Когда данные группируются, (истинная) дисперсия равна потому что статистика представляет сумму переменных Бернулли ( ), каждая с дисперсией . Следовательно, ожидаемая стандартная ошибка среднего значения этих значений равна квадратному корню из $k_i/n$ $p(1-p)/n$ $k_i$ $n$ $p$ $p(1-p)$ $m$ , как и прежде. $p(1-p)/n/m = p(1-p)/N$

Число 2 указывает, что мощность теста не должна заметно изменяться в зависимости от того, как распределены результаты (то есть, как и варьируются в зависимости от ), за исключением, возможно, довольно небольшого эффекта от корректировки в выборке дисперсия (если вы не были настолько глупы, чтобы использовать очень мало наборов розыгрышей в каждой группе). $m$ $n$ $m n = N$

Ограниченное моделирование для сравнения с (с 10 000 итераций в каждом), включая (по существу, логистическая регрессия); ; и (максимизация корректировки дисперсии выборки) подтверждают это: мощность (при $p = 0.70$ $p = 0.74$ $m = 900, n = 1$ $m = n = 30$ $m = 2, n = 450$ $\alpha = 0.05$ (односторонний) в первых двух случаях равен 0,59, тогда как в третьем, где поправочный коэффициент вносит существенные изменения (теперь вместо 1798 или 58 имеется только две степени свободы), он падает до 0,36. Другой тест, сравнивающий с дает степени 0,22, 0,21 и 0,15 соответственно: опять же, мы наблюдаем лишь небольшое снижение от отсутствия группировки в ничьи (= логистическая регрессия) до группировки в 30 групп и существенное снижение всего две группы. $p = 0.50$ $p = 0.52$

Морали этого анализа:

Вы не теряете много, когда делите свои значения данных на большое количество относительно небольших групп "ничьих". $N$ $m$
$m$ $n$
$N$

— Whuber
источник

@suncoolsu Жаль, что мы не можем проголосовать за обновление ...

— chl

@chl .. Я согласен, я хотел бы дать (+2) :-), на самом деле я никогда не думал так глубоко об этом вопросе до этого обновления.

— Suncoolsu

Как обычно, тур де Билл Хубер. Я смотрю на озадаченный вопрос о том, как сравнить мощность для t-теста с логистической регрессией. Но похоже, что общность ставит оба метода в задачу проверки пропорций ..

— Майкл Р. Черник

Вот код в R, который иллюстрирует симуляцию ответа whuber . Отзывы об улучшении моего кода R приветствуются.

N <- 900            # Total number data points
m <- 30;            # Size of draw per set
n <- 30;            # No of sets

p_null <- 0.70;     # Null hypothesis
p_alternate <- 0.74 # Alternate hypothesis
tot_iter <- 10000;

set.seed(1);        # Initialize random seed
null_rejected <- 0; # Set counter to 0
for (iter in 1:tot_iter)
{
    draws1 <- matrix(0,m,n);
    draws2 <- matrix(0,m,n);
    means1 <- matrix(0,m);
    means2 <- matrix(0,m);

    for (obs in 1:m)
    {
        draws1[obs,] <- rbinom(n,1,p_null);
        draws2[obs,] <- rbinom(n,1,p_alternate);

        means1[obs,] <- mean(draws1[obs,]);
        means2[obs,] <- mean(draws2[obs,]);
    }
    if (t.test(means1,means2,alternative="l")$p.value <= 0.05)
    {
        null_rejected <- null_rejected + 1; 
    }
}
power <- null_rejected / tot_iter

— Сообщество
источник

Спасибо за то, что поделился этим! (Мне нравится, что вы делаете все параметры переменными и чётко комментируете их.) Сегодня у меня нет голосов :-( поэтому мне придется подождать, чтобы проголосовать,

— whuber

replicate()rbinom()

k

$k$ {*}apply()

@chl Спасибо. Я использую эти вопросы, чтобы узнать R! Таким образом, обратная связь, такая как ваша, является ценной.

@Skrikant LOL Я просто добавил: "Кстати, мне нравится, как ты учишь R!"

— ЧЛ

Я не совсем понимаю; разве это не только дает силу t.test?

— Russellpierce