Хл уже упоминал ловушку множественных сравнений при одновременном проведении 25 тестов с одним и тем же набором данных. Простой способ справиться с этим - настроить пороговое значение p, разделив их на количество тестов (в данном случае 25). Более точная формула: Скорректированное значение p = 1 - (1 - значение p) ^ (1 / n). Однако две разные формулы выводят почти одинаковое скорректированное значение p.
Есть еще одна серьезная проблема с вашей проверкой гипотезы. Вы наверняка столкнетесь с ошибкой типа I (ложно-положительной), в результате которой вы обнаружите некоторые действительно тривиальные различия, которые являются чрезвычайно значительными на уровне 99,9999%. Это потому, что когда вы работаете с выборкой такого большого размера (n = 1 316 662), вы получите стандартную ошибку, очень близкую к 0. Это потому, что квадратный корень из 1 313 662 = 1 146. Таким образом, вы разделите стандартное отклонение на 1 146. Короче говоря, вы уловите мелкие различия, которые могут быть совершенно несущественными.
Я бы посоветовал вам отойти от этой схемы тестирования гипотез и вместо этого провести анализ типа Effect Size. В этих рамках мера статистического расстояния является стандартным отклонением. В отличие от стандартной ошибки, стандартное отклонение не уменьшается искусственно от размера выборки. И этот подход даст вам лучшее представление о существенных различиях между вашими наборами данных. Размер эффекта также гораздо более сфокусирован на доверительном интервале вокруг средней средней разницы, который гораздо более информативен, чем проверка гипотезы на статистическую значимость, которая часто вообще не значима. Надеюсь, это поможет.