Пара подходов:
Используйте попарные p-значения, но скорректируйте их для множественных сравнений, используя что-то вроде корректировок Bon Feroni или False Discovery Rate (первое, вероятно, будет немного более консервативным). Тогда вы можете быть уверены, что все, что по-прежнему существенно отличается, возможно, не из-за многократного тестирования.
Вы можете создать общий тест на вкус KS, найдя наибольшее расстояние между любым из распределений, то есть построить все эмпирические cdf и найти наибольшее расстояние от самой нижней линии до самой верхней линии, или, может быть, среднее расстояние или какое-то другое значимое измерения. Затем вы можете выяснить, насколько это важно, выполнив тест перестановки: сгруппируйте все данные в 1 большую корзину, затем случайным образом разбейте их на группы с теми же размерами выборки, что и ваши исходные группы, пересчитайте статистику для переставленных данных и повторите процесс много раз (999 или около того). Затем посмотрите, как ваши исходные данные сравниваются с переставленными наборами данных. Если исходные статистические данные попадают в середину переставленных статистических данных, значительных различий не обнаружено, но если они находятся на границе, или за пределами любого из переставленных, тогда происходит что-то существенное (но это не говорит вам, что отличается). Вероятно, вам следует попробовать это с смоделированными данными, когда вы знаете, что есть разница, которая достаточно велика, чтобы быть интересной, просто чтобы проверить мощь этого теста, чтобы найти интересные различия.