После долгих размышлений о Cross Validated я все еще не чувствую, что я ближе к пониманию дивергенции KL вне области теории информации. Это довольно странно, когда кто-то с математическим образованием находит, что гораздо легче понять объяснение теории информации.
Чтобы изложить мое понимание на фоне теории информации: если у нас есть случайная переменная с конечным числом результатов, существует оптимальное кодирование, которое позволяет нам сообщать результат кому-то еще, в среднем самое короткое сообщение (я считаю, что проще всего картинка в терминах битов). Ожидаемая длина сообщения, необходимого для сообщения результата, определяется как если используется оптимальное кодирование. Если бы вы использовали субоптимальное кодирование, то дивергенция KL в среднем говорит нам, насколько длиннее будет наше сообщение.
Мне нравится это объяснение, потому что оно довольно интуитивно касается асимметрии дивергенции KL. Если у нас есть две разные системы, то есть две загруженные монеты, которые загружаются по-разному, они будут иметь разные оптимальные кодировки. Я как-то инстинктивно не чувствую, что использование кодировки второй системы для первой «одинаково плохо» для кодирования первой системы для второй. Не вдаваясь в мыслительный процесс того, как я себя убедил, я теперь довольно счастлив, что дает вам эту "дополнительную ожидаемую длину сообщения", когда используется кодировка для .
Тем не менее, большинство определений дивергенции KL, включая Википедию, затем делают утверждение (сохраняя его в дискретных терминах, чтобы его можно было сравнить с интерпретацией теории информации, которая работает гораздо лучше в дискретных терминах, поскольку биты дискретны), что если у нас есть две дискретные вероятности распределений, то KL предоставляет некоторую метрику «насколько они различны». Мне еще предстоит увидеть одно объяснение того, как эти два понятия связаны между собой. Кажется, я помню, что в своей книге о выводах Дейв Маккей подчеркивает, что сжатие и вывод данных в основном одно и то же, и я подозреваю, что мой вопрос действительно связан с этим.
Независимо от того, так это или нет, вопрос, который я имею в виду, касается проблем логического вывода. (Сохраняя вещи дискретными), если у нас есть два радиоактивных образца, и мы знаем, что один из них - это определенный материал с известной радиоактивностью (это сомнительная физика, но давайте притворимся, что Вселенная работает так), и, таким образом, мы знаем «истинное» распределение количество радиоактивных щелчков, которые мы должны измерить, должно быть пуассоновским с известным Справедливо ли построить эмпирическое распределение для обоих образцов и сравнить их расхождения KL с известным распределением и сказать, что более низкий уровень вероятности будет тем материалом?
Если отойти от сомнительной физики, если я знаю, что два образца взяты из одного и того же распределения, но я знаю, что они выбраны не случайно, сравнение их расхождений KL с известным глобальным распределением дало бы мне ощущение того, «насколько смещены» образцы. Относительно одного и другого в любом случае?
И, наконец, если ответ на предыдущие вопросы - да, то почему? Можно ли понять эти вещи только со статистической точки зрения без каких-либо (возможно, незначительных) связей с теорией информации?