Как «разумно» собрать коллекцию отсортированных данных?

Я пытаюсь разумно отсортировать коллекцию. У меня есть коллекция из частей данных. Но я знаю , что это припадки данных в неравных размеров бункеров. Я не знаю, как правильно выбирать конечные точки для правильного размещения данных. например: $n$ $m$

Скажем, у меня в коллекции 12 предметов, и я знаю, что данные поместятся в 3 корзины:

Index:  1 2 3 4 5 6 7 8 9 10 11 12
Value:  1 1 1 3 3 3 3 3 3 5  5  6

Как правильно выбрать мои контрольные точки для ячеек ? $i = \{1-3\}, \{4-9\}, \{10-12\}$

Текущая реализация, которую я имею, разбивает данные на ячейки равномерного размера, а затем берет среднее значение конечных точек, чтобы найти индексы для конца корзин. Так что это работает так:

Index:  1 2 3 4 5 6 7 8 9 10 11 12
Value:  1 1 1 3 3 3 3 3 3 5  5  6

first break evenly: i = 1-4, 5-8, 9-12
mean endpoints:  between 4 and 5: (3+3)/2 = 3
                 between 8 and 9: (3+3)/2 = 3

Итак, теперь все, что ниже 3, помещается в корзину 1, все, что выше 3, но ниже 3, помещается в корзину 2, а все, что выше 3, помещается в корзину 3. Вы можете видеть, в чем заключается моя проблема. Если данные имеют неравные ячейки, мой метод завершится неудачно.

Друг упомянул алгоритм k-ближайшего соседа, но я не уверен.

clustering histogram binning

— Мэтью Кемнетц
источник

Не могли бы вы объяснить, что означает «разумно»? Что вы пытаетесь достичь с помощью биннинга? Почему вы биннинг в первую очередь?

— whuber

Для вашего второго до последнего абзаца вы имеете в виду , и ? В противном случае это не имеет смысла для меня.

< 3 \to b i n 1

$<3\rightarrow bin1$

\geq 3 & < 4 \to b i n 2

$\ge3\&<4\rightarrow bin2$

\geq 4 \to b i n 3

$\ge4\rightarrow bin3$

— gung - Восстановить Монику

Я имею в виду разумно, а не наивно, как я, предполагая, что мусорные ведра были равномерно распределены. если часть данных попадает в определенную ячейку, которая говорит мне кое-что очень важное об этой части данных. Я сортирую данные, чтобы определить индексы разбиения бункера, а затем решаю, в какой бункер попадает каждый фрагмент данных по отдельности.

— Мэтью Кемнетц

если я не сделал что-то не так в своем усреднении, я думаю, что это правильно выбрав четные ячейки, все мои конечные точки равны 3. Поэтому я не могу правильно хранить свои данные. Вот почему моя реализация ломается без четных интервалов.

— Мэтью Кемнетц

Вот что я сделал в немного другой обстановке.

— Макрос

Ответы:

Я думаю, что вы хотите сделать, это называется кластеризацией. Вы хотите сгруппировать ваши «Значения» так, чтобы аналогичные значения собирались в одном и том же бункере, а количество общих бинов задано заранее.

Вы можете решить эту проблему, используя алгоритм кластеризации k-средних . В MATLAB вы можете сделать это:

bin_ids = kmeans(Values,3);

Вышеупомянутый вызов сгруппирует значения в Valuesтри группы, так что дисперсия внутри группы будет минимальной.

— emrea
источник

Я тоже это выяснил. Это именно то, что я реализовал, и это сработало превосходно. Я пришел сюда, чтобы ответить на свой вопрос, но вы меня опередили! Я пытался делать кластеризацию.

— Мэтью Кемнетц

К-среднее является опцией, но это не очень разумно для одномерных данных. В одномерных данных у вас есть одно огромное преимущество: данные могут быть полностью отсортированы.

Взгляните на оптимизацию естественных разрывов :
http://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

— ВЫЙТИ - Anony-Mousse
источник

Это чрезвычайно интересно. Не могли бы вы подробнее рассказать о том, почему это лучше, чем k означает?

— Мэтью Кемнетц

Основная причина, по которой я спрашиваю, заключается в том, что я использую MATLAB для своего алгоритма, и я не смог найти оптимизацию естественных разрывов Дженкса ни в каких наборах инструментов и т. Д., Поэтому мне нужно будет реализовать свою собственную. Я просто хотел знать, насколько лучше / быстрее это может быть, прежде чем переключать передачи и реализовывать это.

— Мэтью Кемнетц

К-значит довольно глупо. Он имеет средство, и он всегда будет разделен в середине двух средств. Например, с учетом 0 1 2 3 4 5 7 7 7, k-means предпочитает делиться между 4 и 5. Иногда он даже делится между 3 и 4.

— Имеет QUIT - Anony-Mousse