Я пытаюсь найти метрику для измерения неравномерности распределения для эксперимента, который я провожу. У меня есть случайная переменная, которая должна быть равномерно распределена в большинстве случаев, и я хотел бы иметь возможность идентифицировать (и, возможно, измерить степень) примеры наборов данных, где переменная не распределена равномерно в некотором поле.
Пример трех рядов данных, каждый из которых содержит 10 измерений, представляющих частоту появления чего-то, что я измеряю, может выглядеть примерно так:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Я хотел бы иметь возможность различать распределения как c от таких как a и b и измерять отклонение c от равномерного распределения. Эквивалентно, если есть метрика для того, насколько равномерно распределение (стандартное отклонение, близкое к нулю?), Я могу, возможно, использовать это, чтобы различать с высокой дисперсией. Тем не менее, мои данные могут иметь один или два выброса, как в примере c выше, и я не уверен, будет ли это легко обнаружить таким образом.
Я могу взломать что-нибудь, чтобы сделать это в программном обеспечении, но я ищу статистические методы / подходы, чтобы обосновать это формально. Я взял класс лет назад, но статистика это не моя область. Это похоже на то, что должно иметь хорошо известный подход. Извините, если что-то из этого полностью кость. Заранее спасибо!