Энтропия изображения


22

Каков наиболее информационно-физически-теоретический правильный способ вычисления энтропии изображения? Сейчас меня не волнует эффективность вычислений - я хочу, чтобы теоретически это было как можно более корректно.

Давайте начнем с серого изображения. Одним из интуитивных подходов является рассмотрение изображения как пакета пикселей и вычисление где - количество уровней серого, а - вероятность, связанная с уровнем серого .K p k k

H=kpklog2(pk)
Kpkk

Есть две проблемы с этим определением:

  1. Он работает для одной полосы (т. Е. Серой шкалы), но как расширить ее статистически правильным образом на несколько полос? Например, для 2 диапазонов следует ли основываться на и, следовательно, на PMF, используя ? Если у вас много ( >> 2) полос, то , что кажется неправильным.Р ( Х 1 = х 1 , х 2 = х 2 ) В Р ( Х 1 = х 1 , . . . , Х Б = х В ) ~ 1 / N BН М Х(X1,X2)P(X1=x1,X2=x2)BP(X1=x1,...,XB=xB)1/NBHMAX
  2. Пространственная информация не учитывается. Например, изображения ниже (принадлежащие Джону Лумису ) имеют одинаковую , хотя, очевидно, они не передают одну и ту же информацию.H

введите описание изображения здесьвведите описание изображения здесь

Кто-нибудь хочет объяснить или дать совет, или направить меня к приличному справочному материалу на эту тему? В основном меня интересует теоретически правильный подход ко второй проблеме (т.е. пространственной информации).


2
Я думаю, что вы должны посмотреть на случайные поля markov, например, files.is.tue.mpg.de/chwang/papers/CVIU2013_MRFSurvey.pdf
seanv507

1
Матрицы грайвела уровня грайлева
seanv507

@ seanv507, да, действительно. Ненаправленные графические модели или марковские случайные поля - это то, что я сейчас изучаю. Отпишусь, когда узнаю больше.
Давор Йосипович

Ответы:


18

«Каков наиболее информационно-физически-теоретический правильный способ вычисления энтропии изображения?»

Отличный и своевременный вопрос.

Вопреки распространенному мнению, действительно возможно определить интуитивно (и теоретически) естественную информационную энтропию для изображения.

Рассмотрим следующий рисунок:

введите описание изображения здесь

Мы можем видеть, что дифференциальное изображение имеет более компактную гистограмму, поэтому его информационная энтропия Шеннона ниже. Таким образом, мы можем получить меньшую избыточность, используя энтропию Шеннона второго порядка (т.е. энтропию, полученную из дифференциальных данных). Если мы сможем изотропно распространить эту идею на 2D, то можно ожидать хороших оценок информационной энтропии изображения.

Двумерная гистограмма градиентов позволяет 2D расширение.

Мы можем формализовать аргументы, и, действительно, это было недавно завершено. Кратко повторю:

Замечание, что простое определение (см., Например, определение энтропии изображения в MATLAB) игнорирует пространственную структуру, имеет решающее значение. Чтобы понять, что происходит, стоит кратко вернуться к делу 1D. Давно известно, что использование гистограммы сигнала для вычисления его информации / энтропии Шеннона игнорирует временную или пространственную структуру и дает плохую оценку собственной сжимаемости или избыточности сигнала. Решение уже было доступно в классическом тексте Шеннона; использовать свойства сигнала второго порядка, то есть вероятности перехода. Наблюдение в 1971 году (Рис & Это означает, что лучшим предиктором значения пикселя при растровом сканировании является значение предыдущего пикселя, что сразу же приводит к дифференциальному предиктору и энтропии Шеннона второго порядка, которая согласуется с простыми идеями сжатия, такими как кодирование длин серий. Эти идеи были усовершенствованы в конце 80-х годов, что привело к появлению некоторых классических методов кодирования изображений без потерь (дифференциального), которые все еще используются (PNG, JPG без потерь, GIF, JPG2000 без потерь), в то время как вейвлеты и DCT используются только для кодирования с потерями.

Переходим сейчас в 2D; Исследователи обнаружили, что очень трудно распространить идеи Шеннона на более высокие измерения без введения ориентационной зависимости. Интуитивно можно ожидать, что информационная энтропия Шеннона изображения не будет зависеть от его ориентации. Мы также ожидаем, что изображения со сложной пространственной структурой (как пример случайного шума спрашивающего) будут иметь более высокую информационную энтропию, чем изображения с простой пространственной структурой (как пример гладкой серой шкалы спрашивающего). Оказывается, причина, по которой было так трудно распространить идеи Шеннона с 1D на 2D, заключается в том, что в первоначальной формулировке Шеннона есть (односторонняя) асимметрия, которая препятствует симметричной (изотропной) формулировке в 2D. Как только 1D-асимметрия исправлена, 2D-расширение может продолжаться легко и естественно.

Переход к поиску (заинтересованные читатели могут ознакомиться с подробной экспозицией в препринте arXiv по адресу https://arxiv.org/abs/1609.01117 ), где энтропия изображения вычисляется по двумерной гистограмме градиентов (функция плотности вероятности градиента).

Сначала 2D pdf вычисляется путем биннинга оценок производных x и y изображений. Это напоминает операцию биннинга, используемую для генерации более распространенной гистограммы интенсивности в 1D. Производные могут быть оценены по 2-пиксельным конечным разностям, вычисленным в горизонтальном и вертикальном направлениях. Для квадратного изображения NxN f (x, y) мы вычисляем значения NxN частной производной fx и значения NxN fy. Мы сканируем разностное изображение и для каждого пикселя, который мы используем (fx, fy), чтобы найти дискретный контейнер в массиве назначения (2D pdf), который затем увеличивается на единицу. Мы повторяем для всех NxN пикселей. Результирующий 2D PDF должен быть нормализован, чтобы иметь общую единичную вероятность (для этого достаточно просто разделить на NxN). 2D PDF теперь готов к следующему этапу.

Вычисление информационной энтропии 2D Шеннона по 2D градиенту pdf простое. Классическая формула логического логического суммирования Шеннона применяется непосредственно, за исключением критического коэффициента, равного половине, который исходит из специальных соображений ограниченного диапазона выборки для градиентного изображения (подробности см. В статье arXiv). Полуфактор делает вычисленную двумерную энтропию еще более низкой по сравнению с другими (более избыточными) методами оценки двумерной энтропии или сжатия без потерь.

Извините, я не написал здесь необходимые уравнения, но все доступно в препринте. Вычисления являются прямыми (не итеративными), а вычислительная сложность имеет порядок (количество пикселей) NxN. Конечная вычисленная информация-энтропия Шеннона не зависит от вращения и точно соответствует числу битов, необходимых для кодирования изображения в не избыточном градиентном представлении.

Кстати, новая двумерная мера энтропии предсказывает (интуитивно приятную) энтропию в 8 бит на пиксель для случайного изображения и 0,000 бит на пиксель для изображения с плавным градиентом в исходном вопросе.


1
Интересная работа. Теперь Разлиги сделал сравнение нескольких энтропийных алгоритмов в этой статье . Интересно, как бы вы сравнили ваши, особенно с синтетическим изображением, которое он там использует. Может быть стоит исследовать.
Давор Йосипович

Спасибо за упоминание бумаги Разлиги. Важнейшие результаты теста показаны на рис. 2. Я считаю, что моя двумерная мера деентропии будет иметь единичную нормированную энтропию для корреляции 0,0, а затем упадет до почти нулевой нормированной энтропии для корреляции 1,0. На самом деле я не вычислял эти значения, но это следует непосредственно из раздела 3.2 моего препринта arXiv, потому что высокая корреляция соответствует низкой спектральной полосе пропускания, следовательно, низкой энтропии.
Киран Ларкин

Мне нравится этот подход. Это кажется интуитивным для меня. Дополнительный этап вычисления градиента перед вычислением энтропии, по-видимому, интуитивно кодирует пространственную информацию. Я попытался поиграть и рассчитать это с Python здесь . Но я изо всех сил пытался воспроизвести каустику из вашей статьи (см. Код, последний пример). Я могу воспроизвести их только поплавками! Это потому, что с целыми числами градиенты находятся в [-6,6] для моего тестового изображения, даже при использовании 16 битов, что приводит только к 49 ненулевым бинам для гистограммы.
mxmlnkn

Ваша статья когда-либо была опубликована? Вы или кто-то еще продолжил работу?
Андрей

Пример кода Matlab был бы великолепен.
Pedro77

8

Нет, все зависит от контекста и вашей предварительной информации. Энтропия имеет много интерпретаций, таких как «измерение порядка» или «измерение информации», но вместо того, чтобы смотреть на интерпретации, вы можете просто посмотреть, что это на самом деле. Энтропия - это просто способ выражения числа состояний системы. Система со многими состояниями имеет высокую энтропию, а система с несколькими состояниями имеет низкую энтропию.

Вы и статья, на которую вы ссылаетесь, утверждают, что эти два изображения имеют одинаковую энтропию. Это не правильно (для меня).

В статье правильно рассчитывается энтропия.

H=kpklog2(pk)

Для первого изображения любой пиксель может иметь любое значение серого,

pk=1M=2n

Следовательно, энтропия это:

H=kpklog2(pk)=k2nlog2(2n)=log2(2n)=n

Однако это не относится ко второму изображению.

Энтропия все еще может быть рассчитана как:

H=kpklog2(pk)

но вы не можете просто скажем , потому что , когда вы обнаружили быть значение, вы знаете , что является такое же значение.p1p2,p3,p4pmanypk=1M=2np1p2,p3,p4pmany

Поэтому два изображения не имеют одинаковую энтропию.

Может показаться странным, что энтропия зависит от того, как вы смотрите на проблему. Однако вы, вероятно, знаете это по сжатию. Максимальное сжатие файла продиктовано теоремой Шеннона о кодировании источника, которая устанавливает верхний предел того, насколько хорошо алгоритм сжатия может сжимать файл. Этот предел зависит от энтропии файла. Все современные компрессоры будут сжимать файл близко к этому пределу.

Однако, если вы знаете, что файл является аудиофайлом, вы можете сжать его, используя FLAC, а не какой-нибудь общий компрессор. FLAC без потерь, поэтому вся информация сохраняется. FLAC не может обойти теорему об исходном кодировании Шеннона, это математика, но она может смотреть на файл таким образом, чтобы уменьшить энтропию файла, таким образом, сделать лучшее сжатие.

То же самое, когда я смотрю на второе изображение, я вижу, что пиксели отсортированы по значению серого, и поэтому он не обладает такой же энтропией для меня, как изображение со случайным шумом.


Я думаю, что ОП знает, если это - он просит вероятностные модели, которые включают пространственную информацию
seanv507

@ seanv507 Я перечитал вопрос. Я не уверен, согласен ли я с вами или нет. Я считаю, что ОП ищет что-то, чего не существует.
боттигер

@bottiger, я благодарю тебя за ответ. Я думаю, что мы все согласны с тем, что 2 изображения должны иметь / не иметь одинаковую энтропию. То, что я хочу знать, - это правильный (концептуально / теоретически) способ его расчета. Простая формула, приведенная для , похоже, не учитывает пространственную информацию. Так что вопрос в том, как правильно его расширить. Я вернусь, когда узнаю больше. H
Давор Йосипович

@bottiger FLAC не может уменьшить энтропию аудиофайла, поскольку по определению это сжатие с потерями. Сжатие достигается за счет устранения избыточности.
Пол Ушак,

Может быть, правильно сказать, что классическая формула энтропии верна только в том случае, если значения пикселей являются статистически независимыми?
Вольперосса

2

По сути, идея энтропии - это что-то вроде «числа микросостояний, согласующихся с макросостоянием».

Я думаю, что комментарий sean507 и ответ bottiger указывают на общую основу. Если вы представляете пространство изображения с помощью порождающей модели , , то для данного изображения можно (в принципе) вычислить кзади над скрытым состояниями (см. также здесь ). Тогда вы можете (в принципе) вычислить энтропию апостериорного.Я р [p[I,h]Ip[hI]

Поэтому я согласен, что любая «энтропия», даже в «наиболее теоретически правильном смысле», может зависеть как от используемого представления , так и от генеративной модели, связывающей «микросостояния» ( ) с «макросостояниями» ( ).яhI


1

H=kpklog2(pk)

это НЕ работает на практике, по той простой причине , что это почти невозможно определить Рк. Вы думаете, что вы можете сделать это, как вы сделали, учитывая количество уровней серого. Пк не то. Пк это все возможные комбинации уровней серого. Таким образом, вы должны создать многомерное дерево вероятностей с учетом 1, 2, 3 ... комбинаций пикселей. Если вы читаете работу Шеннона, вы увидите, что он делает этот расчет для простого английского, учитывая глубину дерева в 3 буквы. Это становится громоздким без компьютера.

Вы сами доказали это с помощью утверждения 2. Вот почему ваши вычисления энтропии возвращают одинаковый уровень энтропии для двух изображений, даже если одно явно менее упорядочено, чем другое.

Также нет такого понятия пространственного распределения в расчете энтропии. Если бы это было так, вам также пришлось бы рассчитывать энтропию по-разному для временно распределенных выборок. И что бы вы сделали для 11-мерного массива данных? Для информационной энтропии; измеряется в байтах.

Просто сожмите изображения, используя алгоритм сжатия. Он выведет оценку энтропии в байтах. Это будет сделано для любого изображения или буквально для всего, что можно оцифровать, например, для музыки или пьес Шекспира.

Так. Ваше случайное изображение содержит приблизительно 114 КБ, а ваше упорядоченное изображение содержит приблизительно 2,2 КБ. Это то, что вы ожидаете, но вы уже знали это, потому что видели, что размеры файлов изображений были такого размера. Я уменьшил сжатый размер на 33%, чтобы учесть будущие улучшения в алгоритмах сжатия. Я не вижу их улучшения за пределами этого, поскольку кривая улучшения становится асимптотической к истинному базовому значению.

PS Для интереса Шекспир произвел только 1 МБ энтропии во всей своей жизни, рассчитанной по этой методике. Большинство из них довольно хорошо, хотя.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.