Тесты, которые сравнивают распределения, являются тестами исключения. Они начинают с нулевой гипотезы о том, что две популяции идентичны, а затем пытаются отвергнуть эту гипотезу. Мы никогда не сможем доказать, что значение null является правдой, просто отклонить его, поэтому эти тесты нельзя использовать, чтобы показать, что 2 выборки происходят из одной и той же совокупности (или идентичных совокупностей).
Это связано с тем, что в распределениях могут быть незначительные различия (то есть они не идентичны), но они настолько малы, что тесты не могут найти разницу.
Рассмотрим 2 распределения: первое является равномерным от 0 до 1, второе представляет собой смесь 2-х униформ, поэтому оно составляет 1 между 0 и 0,999, а также 1 между 9,999 и 10 (0 в других местах). Очевидно, что эти распределения различны (имеет ли значение различие, это другой вопрос), но если вы берете размер выборки 50 от каждого (всего 100), существует более 90% вероятности, что вы увидите только значения от 0 до 0,999 и быть не в состоянии увидеть какую-либо реальную разницу.
Есть способы сделать так называемое тестирование на эквивалентность, когда вы спрашиваете, эквивалентны ли 2 распределения / группы, но вам нужно определить, что вы считаете эквивалентным. Как правило, некоторая мера разницы находится в заданном диапазоне, то есть разница в 2 средних составляет менее 5% от среднего значения 2 средних, или статистика KS ниже заданного порогового значения и т. Д. Если вы Затем можно рассчитать доверительный интервал для разностной статистики (разность средних может быть просто доверительным интервалом, для другой статистики может потребоваться начальная загрузка, моделирование или другие методы). Если весь доверительный интервал попадает в «область эквивалентности», то мы считаем, что 2 популяции / распределения являются «эквивалентными».
Сложная часть - выяснить, какой должна быть область эквивалентности.