Как измерить неравномерность распределения?

28

Я пытаюсь найти метрику для измерения неравномерности распределения для эксперимента, который я провожу. У меня есть случайная переменная, которая должна быть равномерно распределена в большинстве случаев, и я хотел бы иметь возможность идентифицировать (и, возможно, измерить степень) примеры наборов данных, где переменная не распределена равномерно в некотором поле.

Пример трех рядов данных, каждый из которых содержит 10 измерений, представляющих частоту появления чего-то, что я измеряю, может выглядеть примерно так:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Я хотел бы иметь возможность различать распределения как c от таких как a и b и измерять отклонение c от равномерного распределения. Эквивалентно, если есть метрика для того, насколько равномерно распределение (стандартное отклонение, близкое к нулю?), Я могу, возможно, использовать это, чтобы различать с высокой дисперсией. Тем не менее, мои данные могут иметь один или два выброса, как в примере c выше, и я не уверен, будет ли это легко обнаружить таким образом.

Я могу взломать что-нибудь, чтобы сделать это в программном обеспечении, но я ищу статистические методы / подходы, чтобы обосновать это формально. Я взял класс лет назад, но статистика это не моя область. Это похоже на то, что должно иметь хорошо известный подход. Извините, если что-то из этого полностью кость. Заранее спасибо!

— JJC
источник

Связанный: stats.stackexchange.com/questions/66186/…

— kjetil b halvorsen

18

Если у вас есть не только частоты, но и фактические значения, вы можете использовать критерий соответствия для каждого ряда данных. В частности, вы хотите использоватьтест для дискретного равномерного распределения. Это дает хорошийтест, который позволяет выяснить, какие ряды данных, вероятно, не были сгенерированы при равномерном распределении, но не обеспечивает меру однородности. $\chi^2$

Существуют и другие возможные подходы, такие как вычисление энтропии каждого ряда - равномерное распределение максимизирует энтропию, поэтому, если энтропия подозрительно мала, вы можете заключить, что у вас, вероятно, нет равномерного распределения. Это работает как мера единообразия в некотором смысле.

Другим предложением было бы использовать такую меру, как дивергенция Кульбака-Лейблера , которая измеряет сходство двух распределений.

— MånsT
источник

У меня есть пара вопросов относительно вашего ответа: 1. Почему вы утверждаете, что хи-квадрат не дает единообразия? Разве критерий соответствия с равномерным распределением не является мерой однородности? 2. Как мы можем узнать, когда мы должны использовать хи-квадрат или энтропию?

— kanzen_master

@kanzen_master: Я полагаю, что статистику хи-квадрат можно рассматривать как меру однородности, но у нее есть некоторые недостатки, такие как отсутствие сходимости, зависимость от произвольно размещенных бинов, что необходимо для ожидаемого числа ячеек в ячейках. быть достаточно большими и т. д. Какая мера / тест для использования является делом вкуса, и энтропия тоже не без проблем (в частности, существует множество различных оценок энтропии распределения). Мне энтропия кажется менее произвольной мерой и ее легче интерпретировать.

— MånsT

8

В дополнение к хорошим идеям @MansT, вы могли бы предложить и другие меры, но это зависит от того, что вы подразумеваете под "неоднородностью". Чтобы было проще, давайте посмотрим на 4 уровня. Совершенную однородность легко определить:

25 25 25 25

но что из следующего является более неоднородным?

20 20 30 30 или 20 20 25 35

или они одинаково неоднородны?

если вы считаете, что они одинаково неоднородны, вы можете использовать показатель, основанный на сумме абсолютных значений отклонений от нормы, масштабированных до максимально возможного. Тогда первое 5 + 5 + 5 + 5 = 20, а второе 5 + 5 + 0 + 10 = 20. Но если вы думаете, что второе более неоднородно, вы можете использовать что-то, основанное на квадрате отклонений, и в этом случае первый получает 25 + 25 + 25 + 25 = 100, а второй получает 25 + 25 + 0 + 100 = 150.

— Питер Флом - Восстановить Монику
источник

1

Кажется, вы интерпретируете «равномерно распределенный» как «равный», Питер. Является ли это намерением ФП, уместно поднять вопрос, но на самом деле должно появиться как комментарий к вопросу.

— whuber

Привет @whuber Это, казалось, то, что он имел в виду, от вопроса. Что еще это может значить?

— Питер Флом - Восстановить Монику

2

«Равный» означает, что CDF равен

для

,

для

тогда как «равномерный» означает

для

. Вы определяете «идеальную однородность» в первом смысле, тогда как стандартный статистический смысл - во втором.

F (x) = 1

$F(x) = 1$

x \geq μ

$x\ge \mu$

F (x) = 0

$F(x) = 0$

x < μ

$x\lt \mu$

F (x) = (x - α) / θ

$F(x) = (x-\alpha)/\theta$

x \in [α, α + θ]

$x \in [\alpha, \alpha+\theta]$

— whuber

@whuber, мне кажется, первое, что ближе к тому, что в оригинальном плакате означало «униформа». Глядя на это снова, кажется, что он / она использовал «униформу» для обозначения «низкой дисперсии».

— Макрос

Вот и все, Макро: мы не можем сказать. Вопрос нуждается в разъяснении, прежде чем он заслуживает ответа, ИМХО. Принятый ответ предполагает, что ФП использовал «униформу» в стандартном статистическом смысле.

— whuber

6

$1$ $\frac{1}{\sqrt d}$ $1$ $d$

$\frac{1}{\sqrt d}$ $1$

$0$ $1$ $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

$1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

$0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

— user495285
источник

1

L_{p}

$L_p$

@whuber, что я не знаю, и я не знаю ни одного исследования по этому вопросу. По сути, это то, что я использовал в качестве эвристики, которая может соответствовать тому, что нужно после ОП, и я на самом деле не утверждаю, что это предпочтительный подход.

— user495285

@whuber - Не могли бы вы теоретически понять, почему это так хорошо работает. Мне нужно процитировать это.

— Кетан

@ user495285 - Кажется, это работает напрямую со значениями, а не только с частотами. По вашему опыту, лучше использовать его только с частотами или можно использовать его непосредственно на векторе.

— Кетан

L_{2}

$L_2$

χ^{2}

$\chi^2$

0

Наткнулся на это недавно и добавлю к ответу от @ user495285, насколько я понимаю:

$\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

$L_2$ $p$

\frac{n \sqrt{d} - 1}{\sqrt{d} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

Я полагаю, что полезность геометрических мер применима, когда предполагается, что каждая позиция (измерение) описанного пространства измеряется в эквивалентных масштабах, например, во всех подсчетах потенциально равного распределения. Те же самые предположения, лежащие в основе изменения основ, как PCA / SVD, вероятно, здесь аналогичны. Но опять же, я не математик, поэтому я оставлю это открытым для более информированных.

— lakinsm
источник

Звучит полезно. Не могли бы вы указать мне некоторые ссылки, чтобы я мог понять это лучше? Я действительно должен процитировать это.

— Кетан

Вы могли бы привести любой текст линейной алгебры, который охватывает норму Lp; это очень распространенный предмет в геометрии: как рассчитать расстояние между двумя точками в N-мерном пространстве. Возможно, вам даже не придется цитировать это в зависимости от вашей области.

— lakinsm