Вы можете взглянуть на главу 3 Devroye, Gyorfi и Lugosi, «Вероятностная теория распознавания образов» , Springer, 1996. См., В частности, раздел о расхождениях.f
f Дивергенции можно рассматривать как обобщение Кульбака-Лейблера (или, альтернативно, KL можно рассматривать как частный случай дивергенции).f
Общая форма:
Df(p,q)=∫q(x)f(p(x)q(x))λ(dx),
где - это мера, которая доминирует над мерами, связанными с и а - выпуклая функция, удовлетворяющая . (Если и являются плотностями относительно меры Лебега, просто замените обозначение на и все готово.)p q f ( ⋅ ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf(⋅)f(1)=0p(x)q(x)dxλ(dx)
Мы восстановим KL, взяв . Мы можем получить разность Хеллингера с помощью и получить полное изменение или расстояние , взяв, Последний даетf ( x ) = ( 1 - √f(x)=xlogxL1f(x)= 1f(x)=(1−x−−√)2L1f(x)=12|x−1|
DTV(p,q)=12∫|p(x)−q(x)|dx
Обратите внимание, что этот последний, по крайней мере, дает вам конечный ответ.
В другой маленькой книге, озаглавленной « Оценка плотности: видL1 , Девройе настоятельно рекомендует использовать это последнее расстояние из-за его множества хороших свойств инвариантности (среди прочих). Эта последняя книга, вероятно, немного сложнее, чем первая, и, как следует из названия, немного более специализирована.
Приложение : Благодаря этому вопросу мне стало известно, что мера, которую предлагает @Didier, (с точностью до константы) известна как расхождение Дженсена-Шеннона. Если вы перейдете по ссылке на ответ, предоставленный в этом вопросе, то увидите, что квадратный корень этой величины на самом деле является метрикой и ранее был признан в литературе частным случаем дивергенции. , Мне показалось интересным, что мы, похоже, коллективно «заново изобрели» колесо (довольно быстро) посредством обсуждения этого вопроса. Интерпретация, которую я дал ему в комментарии ниже @ Ответ Дидье, также был ранее признан. На самом деле, все довольно аккуратно.f