Коэффициент Джини инвариантен к масштабу и ограничен, стандартное отклонение инвариантно к сдвигу и неограничен, поэтому их трудно сравнивать напрямую. Теперь вы можете определить масштабно-инвариантную версию стандартного отклонения путем деления на среднее (коэффициент вариации).
Однако индекс Джини по-прежнему основан на значениях, а второй - на квадрате значений, поэтому можно ожидать, что второй будет более подвержен влиянию выбросов (чрезмерно низкие или высокие значения). Это можно найти в показателях неравенства доходов , F De Maio, 2007:
Эта мера неравенства доходов рассчитывается путем деления стандартного отклонения распределения доходов на его среднее значение. Более равномерное распределение доходов будет иметь меньшие стандартные отклонения; как таковое, резюме будет меньше в более равных обществах. Несмотря на то, что CV является одной из самых простых мер неравенства, его использование в литературе по общественному здравоохранению было довольно ограниченным, и оно не фигурировало в исследовании гипотезы о неравенстве доходов. Это может быть связано с важными ограничениями показателя CV: (1) он не имеет верхней границы, в отличие от коэффициента Джини 18, что затрудняет интерпретацию и сравнение; и (2) на два компонента CV (среднее и стандартное отклонение) могут оказывать сильное влияние аномально низкие или высокие значения дохода. Другими словами,
Таким образом, коэффициент вариации является менее устойчивым и все еще неограниченным. Чтобы сделать следующий шаг, вы можете удалить среднее и вместо этого разделить на абсолютное отклонение ( ). С точностью до множителя вы соотношение норм , которое может быть ограничено, поскольку для точечного вектора .ℓ 1 / ℓ 2 N ℓ 2 ( x ) ≤ ℓ 1 ( x ) ≤ √ℓ1(x−m)=∑|xn−m|ℓ1/ℓ2Nℓ2(x)≤ℓ1(x)≤N−−√ℓ2(x)
Теперь у вас есть, с индексом Джини и отношением , две интересные меры разреженности распределения: масштабно-инвариантный и ограниченный.ℓ1/ℓ2
Они сравниваются в разделе «Сравнение показателей разреженности», 2009 год. При сравнении с показателями естественной разреженности («Робин Гуд», «Масштабирование», «Восходящий прилив», «Клонирование», «Билл Гейтс» и «Младенцы») индекс Джини является лучшим. Но его форма затрудняет использование в качестве функции потерь, и в этом контексте можно использовать регуляризованные версииℓ1/ℓ2 .
Поэтому, если вы не хотите охарактеризовать распределение почти гауссово, если вы хотите измерить разреженность, используйте индекс Джини, если вы хотите повысить разреженность среди разных моделей, вы можете попробовать такое соотношение норм.
Дополнительная лекция: Среднее различие Джини: превосходная мера изменчивости для ненормальных распределений , Шломо Ицхаки, 2003, чье резюме может показаться интересным:
Из всех показателей изменчивости дисперсия является наиболее популярной. В этой статье утверждается, что среднее различие Джини (GMD), альтернативный индекс изменчивости, разделяет многие свойства с дисперсией, но может быть более информативным в отношении свойств распределений, которые отклоняются от нормальности.