Как проверить различия между двумя групповыми средствами, когда данные обычно не распределяются?

19

Я исключу все биологические детали и эксперименты и укажу только проблему и то, что я сделал статистически. Я хотел бы знать, если это правильно, и если нет, как действовать. Если данные (или мое объяснение) недостаточно ясны, я постараюсь объяснить лучше, отредактировав.

Предположим, у меня есть две группы / наблюдения, X и Y, с размером и . Я хотел бы знать, равны ли средства этих двух наблюдений. Мой первый вопрос: $N_x=215$ $N_y=40$

Если предположения выполнены, уместно ли здесь использовать параметрический t-критерий с двумя выборками? Я спрашиваю об этом, потому что из моего понимания его обычно применяют, когда размер маленький?
Я построил гистограммы как X, так и Y, и они не были нормально распределены, одно из предположений t-критерия с двумя выборками. Моя путаница заключается в том, что я считаю их двумя группами населения, и поэтому я проверил нормальное распределение. Но затем я собираюсь выполнить t-тест из двух образцов ... Это правильно?
Из центральной теоремы о пределе я понимаю, что если вы выполняете выборку (с / без повторений в зависимости от размера вашей популяции) несколько раз и каждый раз вычисляете среднее значение выборок, то оно будет приблизительно нормально распределено. И среднее значение этой случайной величины будет хорошей оценкой среднего значения популяции. Итак, я решил сделать это как по X, так и по Y, 1000 раз, и получил выборки, и я назначил случайную величину для среднего значения каждой выборки. Сюжет был очень нормально распределен. Средние значения X и Y составляли 4,2 и 15,8 (которые были такими же, как у населения + - 0,15), а дисперсия составляла 0,95 и 12,11.
Я выполнил t-тест этих двух наблюдений (1000 точек данных каждое) с неравными отклонениями, потому что они очень разные (0,95 и 12,11). И нулевая гипотеза была отвергнута.
Имеет ли это смысл вообще? Является ли этот правильный / осмысленный подход достаточным или достаточно z-критерия с двумя образцами или он полностью неверен?
Я также выполнил непараметрический тест Уилкоксона, чтобы быть уверенным (на оригинальных X и Y), и нулевая гипотеза была также убедительно отвергнута. В случае, если мой предыдущий метод был совершенно неверным, я полагаю, что проведение непараметрического теста - это хорошо, разве что статистическая мощность может быть?

В обоих случаях средства были существенно различны. Тем не менее, я хотел бы знать, являются ли один или оба подхода ошибочными / полностью неправильными, и если да, то какова альтернатива?

— Arun
источник

21

Идея, что t-критерий предназначен только для небольших выборок, является исторической проблемой. Да, он изначально был разработан для небольших образцов, но в теории нет ничего, что отличало бы малое от большого. За несколько дней до того, как компьютеры стали обычным делом для выполнения статистики, t-таблицы часто доходили только до 30 степеней свободы, а нормаль использовалась сверх этого как близкое приближение t-распределения. Это было сделано для удобства, чтобы размер Т-таблицы был разумным. Теперь с помощью компьютеров мы можем проводить t-тесты для любого размера выборки (хотя для очень больших выборок разница между результатами z-теста и t-теста очень мала). Основная идея заключается в использовании t-критерия при использовании выборки для оценки стандартных отклонений и z-критерия, если известны стандартные отклонения совокупности (очень редко).

Центральная предельная теорема позволяет нам использовать нормальный вывод теории (в данном случае t-тесты), даже если совокупность обычно не распределена, пока размеры выборки достаточно велики. Это означает, что ваш тест приблизительный (но с вашими размерами выборки, одобрение должно быть очень хорошим).

Тест Уилкоксона - это не проверка средств (если только вы не знаете, что популяции абсолютно симметричны и другие неправдоподобные предположения верны). Если средние значения представляют интерес, то лучше всего процитировать критерий Стьюдента.

Учитывая, что ваши стандартные отклонения настолько различны, а формы ненормальны и, возможно, отличаются друг от друга, разница в средствах может быть не самой интересной вещью, происходящей здесь. Подумайте о науке и о том, что вы хотите сделать со своими результатами. Решения принимаются на уровне населения или на индивидуальном уровне? Подумайте об этом примере: вы сравниваете 2 препарата для данного заболевания с лекарством. Половина образца умерла немедленно, а другая половина выздоровела примерно через неделю; на препарате В все выжили и выздоровели, но время до выздоровления было больше недели. В этом случае вас действительно волнует, какое среднее время восстановления было короче? Или замените половину умирающего в А на то, чтобы выздороветь достаточно долго (дольше, чем кто-либо в группе В).

— Грег Сноу
источник

Спасибо, Грег. Я предполагаю, что нет ничего плохого в процедуре как таковой? Я понимаю, что, возможно, я не задаю правильный вопрос, но мое беспокойство в равной степени касается статистического теста / процедуры и самого понимания с учетом двух выборок. Я проверю, задаю ли я правильный вопрос, и вернусь с вопросами, если таковые имеются. Возможно, если я объясню биологическую проблему, это поможет с большим количеством предложений. Еще раз спасибо.

— Арун

5

Одно дополнение к уже очень полному ответу Грега.

Если я вас правильно понимаю, ваш пункт 3 гласит следующую процедуру:

$n$ $X$
$m$ $n$
Повторите это 1000 раз, сохраните соответствующие средства
$X$

Теперь вы предполагаете, что для этого значения справедлива центральная предельная теорема и соответствующая случайная величина будет нормально распределена.

Может быть, давайте посмотрим на математику за вашими вычислениями, чтобы определить ошибку:

$X$ $X_1,\ldots,X_n$ $X_1,\ldots, X_n\sim X$ $m$ $k$

Y_{k} = \frac{1}{m} \sum_{i = 1}^{m} X_{μ_{i}^{k}}

$Y_k=\frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}}$

$\mu^k_i$ $n$ $i$

\frac{1}{1000} \sum_{k = 1}^{1000} \frac{1}{m} \sum_{i = 1}^{m} X_{μ_{i}^{k}}

$\frac{1}{1000}\sum_{k=1}^{1000} \frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}}$

$X_i$ $1000m$ $1000m$ $X_i$

Однако теперь Центральная предельная теорема утверждает, что сумма множества независимых случайных величин приблизительно нормальна. (Что приводит к тому, что среднее значение также является нормальным).

Ваша сумма выше не дает независимых образцов. Возможно, у вас есть случайные веса, но это не делает ваши выборки независимыми вообще. Таким образом, процедура, написанная в 3, не является законной.

$t$

— Тило
источник

Спасибо. Кажется, что t-тест уже решает проблему с помощью CLT (из ответа Грега, который я пропустил). Спасибо за указание на это и за четкое объяснение 3), что я на самом деле хотел знать. Мне придется потратить больше времени, чтобы понять эти концепции.

— Арун

2

Имейте в виду, что CLT работает по-разному хорошо в зависимости от имеющегося распределения (или, что еще хуже, ожидаемого значения или дисперсии распределения не существует - тогда CLT даже не действителен). Если вы сомневаетесь, всегда полезно создать дистрибутив, похожий на тот, который вы наблюдали, а затем смоделировать тест с использованием этого дистрибутива несколько сотен раз. Вы получите представление о качестве расходных материалов CLT.

— Тило