Как выполнить тест начальной загрузки, чтобы сравнить средства двух образцов?

У меня есть две сильно искаженные выборки, и я пытаюсь использовать начальную загрузку, чтобы сравнить их с помощью t-статистики.

Как правильно это сделать?

Процесс, который я использую

Я обеспокоен целесообразностью использования стандартной ошибки исходных / наблюдаемых данных на последнем этапе, когда я знаю, что это обычно не распространяется.

Вот мои шаги:

Bootstrap - случайная выборка с заменой (N = 1000)
Вычислить Т-статистика для каждой начальной загрузки , чтобы создать т-распределение: $T (b) = \frac{({\bar{X}}_{b 1} - {\bar{X}}_{b 2}) - ({\bar{X}}_{1} - {\bar{X}}_{2})}{\sqrt{σ_{x b 1}^{2} / n + σ_{x b 2}^{2} / n}}$ $T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }}$
Оцените t доверительных интервалов, получив и процентили t-распределения $\alpha/2$ $1-\alpha/2$
Получите доверительные интервалы через:

$C I_{L} = ({\bar{X}}_{1} - {\bar{X}}_{2}) - T_C I_{L} . S E_{o r i g i n a l}$ $CI_L = (\overline{X}_1-\overline{X}_2) - T\_{CI_L}.SE_{original}$ $C I_{U} = ({\bar{X}}_{1} - {\bar{X}}_{2}) + T_C I_{U} . S E_{o r i g i n a l}$ $CI_U = (\overline{X}_1-\overline{X}_2) + T\_{CI_U}.SE_{original}$ где $S E = \sqrt{σ_{X 1}^{2} / n + σ_{X 2}^{2} / n}$ $SE = \sqrt{ \sigma^2_{X1}/n + \sigma^2_{X2}/n }$
Посмотрите, где падают доверительные интервалы, чтобы определить, есть ли значительная разница в средних (т. Е. Не ноль)

Я также посмотрел на ранговую сумму Уилкоксона, но она не дает очень разумных результатов из-за очень сильно искаженного распределения (например, 75-й == 95-й процентиль). По этой причине я хотел бы подробнее изучить начальный t-критерий.

Итак, мои вопросы:

Это подходящая методология?
Целесообразно ли использовать SE наблюдаемых данных, когда я знаю, что они сильно искажены?

Возможный дубликат: Какой метод предпочтительнее: тест начальной загрузки или непараметрический тест на основе рангов?

hypothesis-testing t-test bootstrap

— CatsLoveJazz
источник

Насколько велики образцы?

— Майкл М

@ Майкл Майер Около 800

— CatsLoveJazz

См. Также stats.stackexchange.com/questions/189587

— амеба говорит восстановить Monica

Я бы просто сделал обычный тест начальной загрузки:

вычислить t-статистику в ваших данных и сохранить ее
измените данные так, чтобы нулевая гипотеза была верной. В этом случае вычтите среднее значение в группе 1 для группы 1 и добавьте общее среднее значение и сделайте то же самое для группы 2, чтобы средние значения в обеих группах были общими.
Возьмите образцы начальной загрузки из этого набора данных, вероятно, порядка 20000.
вычислить t-статистику в каждой из этих выборок начальной загрузки. Распределение этой t-статистики является оценкой начальной загрузки распределения выборки t-статистики в ваших искаженных данных, если нулевая гипотеза верна.
$p$ $($ $+1)$ $($ $+1)$

Вы можете прочитать больше об этом в:

Глава 4 AC Davison и DV Hinkley (1997). Методы начальной загрузки и их применение . Кембридж: издательство Кембриджского университета.
Глава 16 Брэдли Эфрона и Роберта Дж. Тибширани (1993) . Введение в бутстрап . Бока Ратон: Чепмен и Холл / CRC.
Запись в Википедии о проверке гипотезы начальной загрузки.

— Мартен Буис
источник

По сути, это то, что я делаю, но смотря на то, сколько раз исходная / наблюдаемая t-статистика> = загрузочная t-статистика. Можно ли вначале провести t-тест на сильно искаженных данных, хотя это одна из причин, по которой я хочу повысить уровень.

— CatsLoveJazz

Технически, для теста начальной загрузки вам просто нужна статистика теста, так что это не проблема. В сущности, t-критерий сравнивает средние значения, а в искаженных данных медианы часто более значимы, чем средние значения. Так что тест, сравнивающий медианы вместо средних, может иметь больше смысла. Однако это зависит от вашей нулевой гипотезы, которая является вашим выбором и вашим выбором в одиночку.

— Мартен Буис

Хорошо, спасибо, это означает, что мы хотим протестировать, так как все наши другие результаты были в этой форме.

— CatsLoveJazz