Прежде всего, если вы предполагаете, что распределение двух выборок отличается, убедитесь, что вы используете версию t-критерия Уэлча, которая предполагает неравные различия между группами. Это, по крайней мере, попытается учесть некоторые различия, возникающие из-за распределения.
Если мы посмотрим на формулу для t-критерия Уэлча:
т = х¯¯¯¯1- Х¯¯¯¯2sИкс¯¯¯¯¯1- Х¯¯¯¯¯2
sИкс¯¯¯¯¯1- Х¯¯¯¯¯2
sИкс¯¯¯¯¯1- Х¯¯¯¯¯2= с21N1+ с22N2--------√
мы можем видеть , что каждый раз есть S , мы знаем , что дисперсия учитываются. Давайте представим, что две дисперсии на самом деле одинаковы, но одна отклоняется, что приводит к другой оценке дисперсии. Если эта оценка отклонения фактически не является представительной для ваших данных из-за перекоса, то фактически эффект смещения будет по существу квадратным корнем этого смещения, деленным на число точек данных, использованных для его вычисления. Таким образом, эффект плохих оценочных дисперсий немного приглушается квадратным корнем и более высоким n, и, вероятно, поэтому консенсус заключается в том, что он остается надежным тестом.
Другая проблема искаженных распределений состоит в том, что вычисление среднего значения также будет затронуто, и, вероятно, именно в этом и заключаются настоящие проблемы нарушений тестовых допущений, поскольку средние значения относительно чувствительны к перекосу. И надежность теста может быть приблизительно определена путем расчета разницы в средних по сравнению с разницей в медианах (как идея). Возможно, вы могли бы даже попытаться заменить разницу в средних значениями на медиану в t-тесте в качестве более надежной меры (я уверен, что кто-то обсуждал это, но я не смог найти что-то в Google достаточно быстро, чтобы сослаться).
Я бы также предложил запустить тест перестановки, если все, что вы делаете, это t-тест. Тест перестановки является точным тестом, не зависящим от предположений о распределении. Самое главное, тесты перестановки и t-критерий приведут к одинаковым результатам, если будут выполнены предположения параметрического критерия . Таким образом, мера надежности, которую вы ищите, может быть 1 - разница между p-значениями перестановки и t-критерия, где оценка 1 означает абсолютную надежность, а 0 означает отсутствие надежности вообще.