Ниже описано, чего я пытаюсь достичь, но возможно, что альтернативное постановление проблемы может описать мою цель:
Я хочу
разделите следующие числа на группы, где дисперсии чисел в каждой группе не слишком велики, а различия между средними значениями групп не слишком малы
сравните полученное в итоге распределение с «идеальным» и посмотрите, насколько оно «отличается» от идеального.
Мирянин объяснение цели
Я пытаюсь рассчитать распределение доходов и определить «скобки доходов», в которых находится каждая популяция. Предполагается, что шкала доходов будет саморегулирующейся на основе входных данных.
Моя цель - в конечном итоге измерить или рассчитать разницу между доходами. Я предполагаю, что будет много скобок, и хочу посмотреть, насколько далеко «разделен» каждый уровень.
Вот выборка почасового дохода для выборки из 20 человек с общим доходом 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Как я могу использовать математические концепции для группировки, сортировки и анализа данных, которые действуют как распределение доходов по данной группе населения?
В конце расчета я хочу определить многоуровневое распределение доходов, где идеальное распределение будет выглядеть (как-то так)
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
или это:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Вопрос
Как я должен проанализировать группы населения и измерить разрыв таким образом, чтобы он сказал мне, сколько нужно, чтобы сделать его более похожим на последние два набора моделей, перечисленных выше?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.