Как оценить сходство двух гистограмм?


33

Учитывая две гистограммы, как мы оцениваем, похожи они или нет?

Достаточно ли просто посмотреть на две гистограммы? Простое сопоставление один к одному имеет проблему, заключающуюся в том, что если гистограмма немного отличается и немного смещается, то мы не получим желаемый результат.

Какие-либо предложения?


2
Что значит «похожий»? Например, критерий хи-квадрат и критерий KS проверяют, близки ли две гистограммы к одинаковым. Но «похожий» может означать «иметь одинаковую форму», игнорируя любые различия местоположения и / или масштаба. Не могли бы вы уточнить свои намерения?
whuber

Ответы:


8

Недавняя статья, которую стоит прочитать:

Цао, Ю. Петцольд, Л. Ограничения точности и измерения ошибок при стохастическом моделировании химически реагирующих систем, 2006.

Хотя в этой статье основное внимание уделяется сравнению алгоритмов стохастического моделирования, по сути, основная идея состоит в том, как сравнить две гистограммы.

Вы можете получить доступ к PDF с веб-страницы автора.


Привет, это хорошая статья, спасибо за ссылку в формате PDF .. Я обязательно перейду к этой статье ..
Mew 3.4

12
Вместо предоставления ссылки было бы хорошо, если бы вы суммировали основные моменты статьи. Ссылки умирают, поэтому в будущем ваш ответ может стать бесполезным для тех, кто не подписался на этот журнал (а подавляющее большинство людей не являются подписчиками).
Тим

28

Есть много мер расстояния между двумя гистограммами. Вы можете прочитать хорошую классификацию этих мер в:

К. Мешги и С. Исии, «Расширение гистограммы цветов с помощью сетки для повышения точности отслеживания», в Proc. MVA'15, Токио, Япония, май 2015 г.

Для вашего удобства здесь перечислены самые популярные дистанционные функции:

  • L0 или расстояние Хеллингера

DL0знак равноΣячас1(я)час2(я)

  • L1 , Манхэттен или Городской квартал

DL1знак равноΣя|час1(я)-час2(я)|

  • Lзнак равно2 или евклидово расстояние

DL2знак равноΣя(час1(я)-час2(я))2

  • L или Чыбышевское расстояние

DLзнак равномaИкся|час1(я)-час2(я)|

  • L или Дробное расстояние (часть семейства расстояний Минковского)п

DLпзнак равно(Σя|час1(я)-час2(я)|п)1/п и0<п<1

  • Пересечение гистограммы

Dзнак равно1-Σя(мяN(час1(я),час2(я))мяN(|час1(я)|,|час2(я)|)

  • Косинус Расстояние

DСОзнак равно1-Σячас1(я)час2(я)

  • Канберра Расстояние

DCB=i|h1(i)h2(i)|min(|h1(i)|,|h2(i)|)

  • Коэффициент корреляции Пирсона

DCR=i(h1(i)1n)(h2(i)1n)i(h1(i)1n)2i(h2(i)1n)2

  • Колмогоров-Смирнов Дивергенция

DKS=maxi|h1(i)h2(i)|

  • Соответствие расстояния

DMA=i|h1(i)h2(i)|

  • Крамер-фон Мизес Расстояние

DCM=я(h1(я)-час2(я))2

  • χ2 Статистика

Dχ2знак равноΣя(час1(я)-час2(я))2час1(я)+час2(я)

  • Бхаттачарья Расстояние

DВЧАСзнак равно1-Σячас1(я)час2(я) и хеллингер

  • Аккорд в квадрате

DSСзнак равноΣя(час1(я)-час2(я))2

  • Расхождение Кульбака-Либлера

DКLзнак равноΣячас1(я)Lогчас1(я)м(я)

  • Джеффери Дивергенция

DJDзнак равноΣя(час1(я)Lогчас1(я)м(я)+час2(я)Lогчас2(я)м(я))

  • Расстояние от Earth Mover (это первый элемент расстояний транспортировки, который встраивает информацию о биннинге в расстояние, для получения дополнительной информации, пожалуйста, обратитесь к вышеупомянутой статье или записи в Википедии .A

DЕMзнак равномяNеяJΣя,JеяJAяJsUмя,JеяJ jfijh1(i),jfijh2(j),i,jfij=min(ih1(i)jh2(j)) и представляет поток от доfijij

  • Квадратичное расстояние

DQU=i,jAij(h1(i)h2(j))2

  • Квадратичное расстояние Чи

DQСзнак равноΣя,JAяJ(час1(я)-час2(я)(ΣсAся(час1(с)+час2(с)))м)(час1(J)-час2(J)(ΣсAсJ(час1(с)+час2(с)))м) и000

Реализация Matlab некоторых из этих расстояний доступна в моем репозитории GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance. Также вы можете искать таких парней, как Йосси Рубнер, Офир Пеле, Марко Кутури и Хайбин Лин, для больше современных расстояний.

Обновление: альтернативное объяснение расстояний появляется здесь и там в литературе, поэтому я приведу их здесь для полноты картины.

  • Канберра расстояние (другая версия)

DСВзнак равноΣя|час1(я)-час2(я)||час1(я)|+|час2(я)|

  • Различие Брея-Кертиса, расстояние Соренсена (поскольку сумма гистограмм равна единице, она равна )DL0

DВСзнак равно1-2Σячас1(я)знак равночас2(я)Σячас1(я)+Σячас2(я)

  • Джекард Дистанция (т.е. пересечение над объединением, другая версия)

DяОUзнак равно1-ΣямяN(час1(я),час2(я))ΣямaИкс(час1(я),час2(я))


Добро пожаловать на наш сайт! Спасибо за этот вклад.
whuber


Спасибо, список замечательный, хотя он не позволяет создать оператор сравнения для гистограммы, например, сказать этоhist1 < hist2
Ольга Павлюк

22

Стандартный ответ на этот вопрос - тест хи-квадрат . Тест KS предназначен для незакрепленных данных, а не для данных. (Если у вас есть непрочитанные данные, то обязательно используйте тест в стиле KS, но если у вас есть только гистограмма, тест KS не подходит.)


Вы правы в том, что тест KS не подходит для гистограмм, если его понимать как тест на гипотезу о распределении базовых данных, но я не вижу причин, почему статистика KS не будет работать как мера сходства любых двух гистограмм.
whuber

Было бы полезно объяснить, почему критерий Колмогорова-Смирнова не подходит для бин-данных.
naught101

Это может быть не так полезно при обработке изображений, как при статистической оценке соответствия. Часто при обработке изображений гистограмма данных используется в качестве дескриптора для области изображения, и цель состоит в том, чтобы расстояние между гистограммами отражало расстояние между пятнами изображения. Мало или, возможно, вообще ничего, может быть известно об общей статистике населения данных базового изображения, используемых для получения гистограммы. Например, базовая статистика населения при использовании гистограмм ориентированных градиентов будет значительно отличаться в зависимости от фактического содержания изображений.
Ely

1
Stochtastic ответил на вопрос naught101: stats.stackexchange.com/a/108523/37373
Ляпис

10

Вы ищете тест Колмогорова-Смирнова . Не забудьте разделить высоты столбцов на сумму всех наблюдений каждой гистограммы.

Обратите внимание, что KS-тест также сообщает о разнице, если, например, средства распределений смещены относительно друг друга. Если перевод гистограммы вдоль оси x не имеет смысла в вашем приложении, вы можете сначала вычесть среднее значение из каждой гистограммы.


1
Вычитание среднего значения изменяет нулевое распределение статистики KS. @David Wright выдвигает обоснованное возражение против применения теста KS к гистограммам в любом случае.
whuber

7

Как указывает ответ Дэвида, критерий хи-квадрат необходим для связанных данных, поскольку тест KS предполагает непрерывное распределение. Относительно того, почему тест KS неуместен (комментарий naught101), в литературе по прикладной статистике обсуждался этот вопрос, который стоит поднять здесь.

Забавный обмен начался с утверждения ( García-Berthou and Alcaraz, 2004 ) о том, что треть работ Nature содержит статистические ошибки. Тем не менее, последующий документ ( Jeng, 2006 , « Ошибка в статистических тестах ошибок в статистических тестах » - возможно, мой самый любимый заголовок статьи) показал, что Гарсия-Берту и Алькарас (2005) использовали тесты KS на дискретных данных, приводя к их сообщениям неточные р-значения в их мета-исследовании. В статье Jeng (2006) подробно обсуждается этот вопрос, даже показано, что можно изменить тест KS для работы с дискретными данными. В этом конкретном случае различие сводится к разнице между равномерным распределением последней цифры на [0,9],

п(Икс)знак равно19, (0Икс9)
(в неправильном тесте KS) и гребенчатое распределение дельта-функций, (в правильной, измененной форме) , В результате первоначальной ошибки Garcia-Berthou и Alcaraz (2004) неправильно отклонили нулевое значение, в то время как критерий хи-квадрат и модифицированный тест KS - нет. В любом случае, критерий хи-квадрат является стандартным выбором в этом сценарии, даже если KS можно изменить для работы здесь.
п(Икс)знак равно110ΣJзнак равно09δ(Икс-J)

-1

Вы можете вычислить взаимную корреляцию (свертку) между обеими гистограммами. Это будет учитывать небольшие затруднения.


1
Это автоматически помечается как низкое качество, возможно потому, что оно очень короткое. В настоящее время это скорее комментарий, чем ответ по нашим стандартам. Вы можете расширить это? Мы также можем превратить это в комментарий.
gung - Восстановить Монику

Поскольку гистограммы являются довольно нестабильным представлением данных , а также потому, что они не представляют вероятности, используя только высоту (они используют площадь ), можно разумно поставить под сомнение применимость, общность или полезность этого подхода, если не предоставлено более конкретное руководство.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.