Какова «мощность» модели машинного обучения?


15

Я изучаю этот урок по вариационным автоэнкодерам Карла Доерша . На второй странице говорится:

Одним из наиболее популярных таких фреймворков является Variational Autoencoder [1, 3], предмет данного руководства. Предположения этой модели являются слабыми, и обучение происходит быстро с помощью обратного распространения. VAE действительно делают приближение, но ошибка, вносимая этим приближением, возможно, мала, учитывая модели большой емкости . Эти характеристики способствовали быстрому росту их популярности.

В прошлом я читал подобные заявления о моделях большой емкости , но, похоже, не нашел четкого определения для этого. Я также нашел этот связанный вопрос stackoverflow, но для меня ответ очень неудовлетворительный.

Есть ли определение емкости модели? Вы можете измерить это?

Ответы:


13

Вместимость - это неформальный термин. Это очень близко (если не синоним) к сложности модели. Это способ рассказать о том, насколько сложным может быть модель или отношение, которое может выразить модель. Можно ожидать, что модель с более высокой пропускной способностью сможет моделировать больше связей между большим количеством переменных, чем модель с более низкой пропускной способностью.

Проводя аналогию из разговорного определения емкости, вы можете думать о ней как о способности модели учиться на все большем и большем количестве данных, пока она не будет полностью «заполнена» информацией.

Существуют различные способы формализовать емкость и вычислить для нее числовое значение, но важно то, что это всего лишь некоторые возможные «операционализации» емкости (почти так же, как если бы кто-то придумал формулу для вычисления красоты, вы бы поняли, что формула - только одна ошибочная интерпретация красоты).


VC измерение является математически строгой формулировкой емкости. Однако может существовать большой разрыв между измерением VC модели и фактической способностью модели соответствовать данным. Несмотря на то, что знание VC dim дает ограничение на ошибку обобщения модели, это обычно слишком свободно, чтобы быть полезным для нейронных сетей.

Другое направление исследований, которое мы здесь видим, заключается в использовании спектральной нормы весовых матриц в нейронной сети в качестве меры емкости. Один из способов понять это состоит в том, что спектральная норма ограничивает константу Липшица сети.

Наиболее распространенным способом оценки емкости модели является подсчет количества параметров. Чем больше параметров, тем выше емкость в целом. Конечно, часто меньшая сеть учится моделировать более сложные данные лучше, чем большая сеть, поэтому эта мера также далека от идеальной.

Другой способ измерения емкости может состоять в том, чтобы обучить вашу модель случайным меткам ( Neyshabur et. Al. ) - если ваша сеть может правильно запомнить кучу входных данных наряду со случайными метками, это, по сути, показывает, что модель способна запомнить все эти Данные указывают индивидуально. Чем больше пар ввода / вывода можно «выучить», тем выше емкость.

ϵ


1
Это лучший ответ, чем ответ от stackoverflow, спасибо. У меня все еще есть проблемы с тем, чтобы видеть свободно определенные термины, используемые как оправдание для чего-то другого, но я думаю, что именно так поле движется вперед.
Андрес Марафиоти

1
«может быть большой разрыв между измерением VC модели и фактической емкостью модели». это очень вводящее в заблуждение утверждение, потому что «фактическая емкость» точно не определена. Фактически, размерность VC является хорошей мерой емкости модели. Только потому, что нейронные сети, кажется, решают определенные проблемы, это не делает их «очень способными». Фактически, в большинстве случаев люди думают, что нейронные сети решают проблему, в то время как они решают гораздо более простую проблему и, фактически, они часто катастрофически терпят неудачу (потому что они были «неожиданно» обучены решать более простую проблему).
nbro
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.