Разница сводная статистика: коэффициент Джини и стандартное отклонение

Есть несколько сводных статистических данных. Если вы хотите описать разброс распределения, вы можете использовать, например, стандартное отклонение или коэффициент Джини .

Я знаю, что стандартное отклонение основано на центральной тенденции, то есть отклонении от среднего, а коэффициент Джини является общим измерением дисперсии. Я также знаю, что коэффициент Джини имеет нижнюю и верхнюю границы [0 1], а стандартное отклонение - нет . Эти свойства полезно знать, но какое понимание может дать стандартное отклонение, которое Джини не может и наоборот? Если бы мне пришлось выбирать один из двух вариантов, каковы преимущества использования одного по сравнению с другим, когда дело доходит до информативности и проницательности.

standard-deviation descriptive-statistics gini

— Olivier_s_j
источник

У вас был странный выбор тегов. Я редактировал их.

— амеба

Ответы:

Две вещи для рассмотрения

Джини не зависит от масштаба, тогда как SD в оригинальных единицах

Предположим, у нас есть мера, ограниченная сверху и снизу. SD принимает максимальное значение, если половина измерений находится на каждой границе, в то время как Джини принимает максимум, если одно находится на одной границе, а все остальные - на другой.

— mdewey
источник

Как вы думаете, мы могли бы расширить использование Gini для учета концентрации / гетерогенности в мета-анализе? Это может быть интересно как средство для количественной оценки концентрации в неоднородности ...

— Joe_74

Поскольку предположение, что эффекты нормальные, то нет. Но я думаю, что более полное обсуждение не по теме в этой теме

— mdewey

@mdewey Последнее предложение было проницательным и помогло мне больше всего. Спасибо!

— Olivier_s_j

@mdewey Я сам проверил это с помощью некоторого кода, но есть ли где-нибудь публикация, где это обсуждается? Или доказательство? (Я имею в виду последнее предложение)

— Olivier_s_j

@Ojtwist статья в Википедии en.wikipedia.org/wiki/Gini_coefficient полезна.

— mdewey

Коэффициент Джини инвариантен к масштабу и ограничен, стандартное отклонение инвариантно к сдвигу и неограничен, поэтому их трудно сравнивать напрямую. Теперь вы можете определить масштабно-инвариантную версию стандартного отклонения путем деления на среднее (коэффициент вариации).

Однако индекс Джини по-прежнему основан на значениях, а второй - на квадрате значений, поэтому можно ожидать, что второй будет более подвержен влиянию выбросов (чрезмерно низкие или высокие значения). Это можно найти в показателях неравенства доходов , F De Maio, 2007:

Эта мера неравенства доходов рассчитывается путем деления стандартного отклонения распределения доходов на его среднее значение. Более равномерное распределение доходов будет иметь меньшие стандартные отклонения; как таковое, резюме будет меньше в более равных обществах. Несмотря на то, что CV является одной из самых простых мер неравенства, его использование в литературе по общественному здравоохранению было довольно ограниченным, и оно не фигурировало в исследовании гипотезы о неравенстве доходов. Это может быть связано с важными ограничениями показателя CV: (1) он не имеет верхней границы, в отличие от коэффициента Джини 18, что затрудняет интерпретацию и сравнение; и (2) на два компонента CV (среднее и стандартное отклонение) могут оказывать сильное влияние аномально низкие или высокие значения дохода. Другими словами,

Таким образом, коэффициент вариации является менее устойчивым и все еще неограниченным. Чтобы сделать следующий шаг, вы можете удалить среднее и вместо этого разделить на абсолютное отклонение ( ). С точностью до множителя вы соотношение норм , которое может быть ограничено, поскольку для точечного вектора . $\ell_1(x-m)=\sum |x_n -m|$ $\ell_1/\ell_2$ $N$ $\ell_2(x)\le \ell_1(x)\le \sqrt{N}\ell_2(x)$

Теперь у вас есть, с индексом Джини и отношением , две интересные меры разреженности распределения: масштабно-инвариантный и ограниченный. $\ell_1/\ell_2$

Они сравниваются в разделе «Сравнение показателей разреженности», 2009 год. При сравнении с показателями естественной разреженности («Робин Гуд», «Масштабирование», «Восходящий прилив», «Клонирование», «Билл Гейтс» и «Младенцы») индекс Джини является лучшим. Но его форма затрудняет использование в качестве функции потерь, и в этом контексте можно использовать регуляризованные версии $\ell_1/\ell_2$ .

Поэтому, если вы не хотите охарактеризовать распределение почти гауссово, если вы хотите измерить разреженность, используйте индекс Джини, если вы хотите повысить разреженность среди разных моделей, вы можете попробовать такое соотношение норм.

Дополнительная лекция: Среднее различие Джини: превосходная мера изменчивости для ненормальных распределений , Шломо Ицхаки, 2003, чье резюме может показаться интересным:

Из всех показателей изменчивости дисперсия является наиболее популярной. В этой статье утверждается, что среднее различие Джини (GMD), альтернативный индекс изменчивости, разделяет многие свойства с дисперсией, но может быть более информативным в отношении свойств распределений, которые отклоняются от нормальности.

— Лоран Дюваль
источник

Стандартное отклонение имеет шкалу (скажем, ° K, метры, мм рт.ст., ...). Обычно это влияет на наше суждение о его величине. Поэтому мы склонны предпочитать коэффициент вариации или даже лучше (на конечных выборках) стандартную ошибку.

Коэффициент Джини построен на (безмасштабных) процентных значениях и, таким образом, не имеет шкалы в своей собственной единице (например, число Маха). Используйте коэффициент Джини, если хотите сравнить равенство долей с чем-то общим (доли 100%). Обратите внимание, что для этого приложения также может быть использовано стандартное отклонение, поэтому я думаю, что ваш вопрос для сравнения преимуществ и недостатков относится только к этому виду применения. В этом случае стандартное отклонение также будет ограничено до . Оба индикатора будут зависеть от количества (неотрицательных) акций, но в противоположном направлении: Джини увеличивается с увеличением числа, стандартное отклонение уменьшается. $[0,1]$

— Хорст Грюнбуш
источник