Чтобы понять дискуссию Ватанабе, важно понять, что он имел в виду под «сингулярностью». (Строгая) особенность совпадает с геометрическим понятием особой метрики в его теории.
с.10 [Watanabe]: «Статистическая модель называется регулярной, если она идентифицируема и имеет положительно определенную метрику. Если статистическая модель не является регулярной, то она называется строго сингулярной».p ( x ∣ w )
На практике сингулярность обычно возникает, когда информационная метрика Фишера, индуцированная моделью, вырождена на многообразии, определяемом моделью, как в случае ранга или разрежения в «машинном обучении».
То, что Ватанабе сказал о сходимости эмпирической дивергенции КЛ к ее теоретическому значению, можно понять следующим образом. Одним из источников понятия дивергенции является надежная статистика. M-оценки, которые включают MLE как частный случай с функцией контраста , обычно обсуждаются с использованием слабой топологии. Целесообразно обсудить поведение сходимости с использованием слабой топологии над пространством M ( X ) (многообразием всех возможных мер, определенных на польском пространстве X).ρ ( θ , δ( Х) ) = - журналр ( х∣ θ )M(Х)Икс) потому что мы хотим изучить устойчивость MLE. Классическая теорема в [Huber] гласит, что при хорошо разделенной функции дивергенции . инф | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D ( θ0, θ ) = Eθ0ρ ( θ , δ)
инф| θ- θ0| ≥ϵ( | D ( θ0, θ ) - D ( θ0, θ0) | ) > 0
и хорошее эмпирическое приближение контрастной функции к дивергенции,
вместе с регулярностью, мы можем дать последовательность в смысле
^ θ n :=argвирθ|||1NΣяρ ( θ , δ( Хя) ) - D ( θ0, θ ) ∣||→ 0 , n → ∞
будет сходиться к
θ 0 с вероятностью
P θ 0 . Этот результат требует гораздо более точных условий, если сравнивать с результатом Дуба [Дуба] в слабой согласованности байесовской оценки.
θN^: = Г гм я нθρ ( θ , δ( ХN) )
θ0пθ0
Так что здесь байесовские оценки и MLE расходятся. Если мы все еще будем использовать слабую топологию для обсуждения согласованности байесовских оценок, это бессмысленно, потому что байесовские оценки всегда (с вероятностью один) будут согласовываться Дубом. Поэтому более подходящей топологией является топология распределения Шварца, которая допускает использование слабых производных и теория фон Мизеса. У Бэррона был очень хороший технический отчет по этой теме, как мы можем использовать теорему Шварца для получения согласованности.
D
Это влияет на «особый результат обучения», потому что, как мы видим, теорема согласованности Дуба обеспечивает слабую согласованность байесовских оценок (даже в сингулярной модели) в слабой топологии, в то время как MLE должен отвечать определенным требованиям в той же топологии.
Только одно слово, [Ватанабэ] не для начинающих. Это имеет некоторые глубокие последствия для реальных аналитических наборов, что требует большей математической зрелости, чем у большинства статистиков, поэтому, вероятно, не стоит читать их без соответствующего руководства.
■
[Ватанабэ] Ватанабе, Сумио. Алгебраическая геометрия и статистическая теория обучения. Том 25. Издательство Кембриджского университета, 2009.
[Хубер] Хубер, Питер Дж. «Поведение оценок максимального правдоподобия в нестандартных условиях». Материалы пятого симпозиума в Беркли по математической статистике и вероятности. Том 1. № 1. 1967.
[Дуб] Дуб, Джозеф Л. «Применение теории мартингалов». Le calcul des probabilites et ses Приложения (1949): 23-27.