Небольшие и несбалансированные размеры выборки для двух групп - что делать?

У меня есть данные для двух групп (то есть выборок), которые я хочу сравнить, но общий размер выборки небольшой (n = 29) и сильно несбалансированный (n = 22 против n = 7).

Эти данные сложны с точки зрения логистики и дороги для сбора, поэтому «собрать больше данных» как очевидное решение в данном случае бесполезно.

Был измерен ряд различных переменных (дата отъезда, дата прибытия, продолжительность миграции и т. Д.), Поэтому существует несколько тестов, некоторые из которых сильно различаются (меньшая выборка имеет более высокую дисперсию).

Первоначально коллега проводил t-тесты на этих данных, и некоторые были статистически значимыми с P <0,001, другие не были значимыми с P = 0,069. Некоторые образцы были нормально распределены, другие - нет. Некоторые тесты включали большие отклонения от «равных» отклонений.

У меня есть несколько вопросов:

уместны ли здесь t-тесты? Если нет, то почему? Относится ли это только к тестам, в которых выполняются предположения о нормальности и равенстве дисперсий?
что является подходящей альтернативой (ами)? Возможно тест перестановки?
неравная дисперсия раздувает ошибку I типа, но как? и как маленький несбалансированный размер выборки влияет на ошибку типа I?

t-test sample-size

— DeanP
источник

Ответы:

T-тесты, которые предполагают равные дисперсии двух популяций, недопустимы, когда две популяции имеют разные дисперсии, и это хуже для неравных размеров выборки. Если наименьший размер выборки соответствует величине дисперсии, то в тесте будет завышена ошибка типа I). Версия t-критерия Уэлча-Саттертвэйта, с другой стороны, не допускает равных дисперсий. Если вы думаете о тесте перестановки Фишера-Питмана, он также предполагает равные отклонения (если вы хотите вывести неравные средние значения из низкого значения p).

Есть ряд других вещей, о которых вы можете подумать:

(1) Если различия явно неравны, вас все еще интересует разница между средствами?

(2) Могут ли оценки эффекта быть более полезными для вас, чем p-значения?

(3) Хотите ли вы учитывать многовариантность ваших данных, а не просто проводить серию одномерных сравнений?

— Scortchi - Восстановить Монику
источник

Привет Scortchi, спасибо за ваш ответ. Я рассмотрел вопросы, которые вы задали:

— ДеканП

(1) Как дисперсия, так и среднее могут быть информативными для нашего исследования (например, даты отъезда миграции могут быть значительно позже для одной популяции, а диапазон дат отъезда более изменчив).

— ДеканП 12.12.12

(1) Только что упомянул это, потому что люди часто рассматривают неравные различия исключительно как техническую проблему и забывают, что это интересный факт сам по себе.

— Scortchi - Восстановить Монику

(2) Моя точка зрения заключалась в том, что список значений p обычно менее полезен, чем список оценок размера эффекта (который может быть средним, медианой, дисперсией или чем-то еще) с доверительными интервалами. В частности, для небольших выборок доверительные интервалы могут показать, соответствуют ли размеры эффекта, имеющие практическое значение, данным, даже если значение р является высоким.

— Scortchi - Восстановить Монику

(3) Я думал об одной независимой переменной (группе) и нескольких зависимых переменных (время миграции и т. Д.): Интересная разница между группами может заключаться в изменении отношений между зависимыми переменными. Первым шагом была бы хорошая матрица с коробочными диаграммами или точечными диаграммами, сравнивающими каждое dv между группами по диагонали, и точечными диаграммами для каждой пары dv (опять-таки отличительных групп) в других ячейках. И, честно говоря, для исследовательского анализа с небольшими размерами выборки это может стать последним шагом.

— Scortchi - Восстановить Монику

Во-первых, как уже указывал Scortchi, T-критерий не очень подходит для ваших данных из-за его предположений о распределении данных.

Во-вторых, я бы предложил альтернативу T-критерию. Если вас интересует только тот факт, что распределение ваших двух выборок одинаково или нет, вы также можете попробовать использовать двустороннюю версию критерия суммы рангов Уилкоксона. Тест ранговой суммы Вилкоксона является непараметрическим. Этот вид теста особенно полезен, если вы не уверены в правильности распределения ваших данных.

Существует точное решение теста для малых размеров выборки, а также для больших когорт. Кроме того, существует также пакет R, который реализует критерий суммы рангов Уилкоксона.

Поскольку это тест без параметров, а также он обрабатывает выборки небольшого размера, этот тест должен хорошо подходить для вашего тестового случая.

— Алекс VII
источник