Что такое минимизация энергии в машинном обучении?


14

Я читал об оптимизации для некорректной проблемы в компьютерном зрении и натолкнулся на объяснение ниже об оптимизации в Википедии. Я не понимаю, почему они называют эту оптимизацию « Минимизация энергии » в Computer Vision?

Задача оптимизации может быть представлена ​​следующим образом:

Дано: функция из некоторого множества A в вещественные числаf:ARA

Требуется: элемент в A такой, что f ( x 0 ) f ( x ) для всех x в A («минимизация») или такой, что f ( x 0 ) f ( x ) для всех x в A (« максимизация ").x0Af(x0)f(x)xAf(x0)f(x)xA

Такая формулировка называется проблемой оптимизации или проблемой математического программирования (термин, непосредственно не связанный с компьютерным программированием, но все еще используемый, например, в линейном программировании - см. Историю ниже). Многие реальные и теоретические проблемы могут быть смоделированы в этой общей структуре. Задачи, сформулированные с использованием этой методики в области физики и компьютерного зрения, могут относиться к технике как к минимизации энергии, говоря о значении функции как о представлении энергии моделируемой системы.f

Ответы:


8

Энергетические модели - это унифицированная структура для представления многих алгоритмов машинного обучения. Они интерпретируют вывод как минимизацию энергетической функции, а обучение - как минимизацию потерь.

Энергетическая функция является функцией конфигурации скрытых переменных и конфигурации входов, представленных в примере. Вывод, как правило, означает нахождение конфигурации с низкой энергией или выборку из возможной конфигурации, так что вероятность выбора данной конфигурации является распределением Гиббса.

Функционал потерь является функцией параметров модели, приведенных во многих примерах. Например, в контролируемой проблеме обучения ваша потеря - это полная ошибка в целях. Его иногда называют «функционалом», потому что это функция (параметризованной) функции, которая составляет модель.

Основная статья:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato и FJ Huang, «Учебное пособие по обучению на основе энергии», в Прогнозирование структурированных данных, MIT Press, 2006.

Также см:

LeCun, Y. & Huang, FJ (2005). Функции потерь для дискриминационного обучения моделей на основе энергии. В материалах 10-го международного семинара по искусственному интеллекту и статистике (AIStats'05). Получено с http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato, M., Boureau, Y.-L., Chopra S., & LeCun, Y. (2007). Единая энергетическая основа для обучения без учителя. Proc. Конференция по ИИ и статистике (AI-Stats). Получено с http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07


3
Можете ли вы рассказать о том, что означает «Они интерпретируют вывод как минимизацию энергетической функции, а обучение - как минимизацию функции потерь»? Чем энергетическая функция отличается от функции потерь?
Клифф AB

Не могли бы вы уточнить ваш ответ
Iamprem

@ CliffAB Надеюсь, это понятнее?
Нил Г

@NeilG: если честно, я все еще немного растерялся. Для меня это звучит так, как будто «энергетическая функция» - это то же самое, что функция вероятности в статистике. Это разумное толкование или я упускаю что-то более тонкое?
Клифф А.Б.

@CliffAB: функция энергии может быть логарифмической вероятностью, и в этом случае полная возведенная в степень энергия равна единице. Однако в этом даже нет необходимости: не вероятностные модели, основанные на энергии, не беспокоятся об этой нормализации, что может сделать их изучение более эффективным, чем вероятностные модели. Это потому, что это позволяет избежать оценки дорогих интегралов в пространстве конфигурации.
Нил Г

2

xt

E=Σxt2

SSE=Σ(yy^)2
y^


1
Я думаю, что вы путаете потерю с энергией
Нил Г

Я использую стандартное определение энергии от обработки сигнала . Я полагаю, что люди, работающие в области компьютерных наук и машинного обучения, склонны пересматривать термины Я пришел из статистики и обработки сигналов фона
стан

Ваша первая формула - это энергетическая функция. Вторая формула - это функция потерь, так как она не является функцией конфигурации.
Нил Г

@Neil Я уверен, что вы правильно используете терминологию, определенную в цитируемых вами статьях. Это просто другая терминология из того, что я привык , где SSE энергия
Стан
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.