Это может помочь дать немного больше обзора MMD.
В общем, MMD определяется идеей представления расстояний между распределениями в виде расстояний между средними вложениями признаков. То есть, скажем , у нас есть распределение и над множеством . MMD определяется картой объектов , где - это то, что называется воспроизводящим гильбертовым пространством ядра. В общем случае MMD имеет вид
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
В качестве одного примера, мы могли бы иметь и . В этом случае:
так что это MMD - просто расстояние между средними двумя распределениями. Соответствующие распределения как это будут соответствовать их средствам, хотя они могут отличаться по своей дисперсии или другими способами.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Ваш случай немного отличается: у нас есть и , где , где - матрица . Таким образом, мы имеем
Это MMD - это разница между двумя разными проекциями среднего значения. Если или отображение иначе не обратимо,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ чем предыдущий: он не различает некоторые дистрибутивы, которые делает предыдущий.
Вы также можете построить более сильные расстояния. Например, если и вы используете , тогда MMD становится и может различать не только распределения с разными средними, но и с разными дисперсиями.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
И вы можете стать намного сильнее, чем это: если отображается на общее воспроизводящее гильбертово пространство ядра, то вы можете применить трюк ядра для вычисления MMD, и оказывается, что многие ядра, включая ядро Гаусса, приводят к MMD будучи нулем, если и только распределения идентичны.φ
В частности, если , вы получите
который вы можете прямо оценить с образцами.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Обновление: вот откуда взято «максимум» в названии.
Карта признаков отображается в гильбертово пространство воспроизводящего ядра. Это пространства функций , которые удовлетворяют ключевому свойству (так называемому свойству воспроизведения ): для любого .φ:X→H ⟨ F , φ ( х ) ⟩ Н = F ( х ) F ∈ H⟨f,φ(x)⟩H=f(x)f∈H
В простейшем примере, с , мы рассматриваем каждое как функцию, соответствующую некоторому , через . Тогда воспроизводящее свойство должно иметь смысл.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
В более сложных настройках, таких как ядро Гаусса, - гораздо более сложная функция, но свойство воспроизведения все еще сохраняется.f
Теперь мы можем дать альтернативную характеристику MMD:
Вторая строка - это общий факт о нормах в гильбертовых пространствах:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ достигается с помощью . Четвертое зависит от технического условия, известного как интегрируемость Бохнера, но верно, например, для ограниченных ядер или распределений с ограниченной поддержкой. Затем в конце мы используем воспроизводящее свойство.f=g/∥g∥
Эта последняя строка объясняет, почему она называется «максимальное среднее расхождение» - это максимальная, сверх тестовых функций в единичном шаре , средней разности между двумя распределениями.fH