Почему функция потерь 0-1 неразрешима?

В книге глубокого обучения Яна Гудфеллоу написано, что

Иногда функция потерь, о которой мы действительно заботимся (скажем, ошибка классификации), не может быть эффективно оптимизирована. Например, точное минимизация ожидаемых потерь 0-1 обычно трудно (экспоненциально во входном измерении) даже для линейного классификатора. В таких ситуациях обычно вместо этого оптимизируют функцию суррогатных потерь, которая действует как прокси, но имеет преимущества.

Почему потери 0-1 неразрешимы или как они экспоненциальны во входных измерениях?

neural-networks deep-learning loss-functions

— Самра Иршад
источник

Ответы:

$\beta$ $\mathbf{1}(y_{i}\beta\mathbf{x}_{i} \leq 0)$ $i$ $2^{n}$ $n$ общее количество точек выборки. Известно, что это NP-хард. Знание текущего значения вашей функции потерь не дает никакой подсказки о том, как вы, возможно, должны изменить свое текущее решение для улучшения, как вы могли бы получить, если бы были доступны градиентные методы для выпуклых или непрерывных функций.

— Дон валпола
источник

Очень хороший момент - на практике случайный поиск или исчерпывающий поиск - единственные методы, которые можно использовать для определения минимума такой функции потерь, верно?

— DeltaIV

^^ или эволюционные / роевые методы разведки, может быть?

— Самра Иршад

@samrairshad Да, на самом деле проигрыш 0-1 не так уж редко встречается в эволюционных методах.

— Джон Дусетт

Прежде чем перейти от случайного поиска к сложным эволюционным / роевым алгоритмам, я бы попробовал метод кросс-энтропии (CEM).

— Maxy

Ошибка классификации на самом деле иногда поддается устранению. Его можно оптимизировать эффективно, хотя и не совсем точно, используя метод Nelder-Mead, как показано в этой статье:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

«Уменьшение размеров - это процесс преобразования многомерных векторов в низкоразмерное пространство. При распознавании образов часто желательно, чтобы эта задача выполнялась без значительной потери классификационной информации. Ошибка Байеса является идеальным критерием для этой цели; однако известно, что он чрезвычайно сложен для математической обработки. Следовательно, на практике используются субоптимальные критерии. Мы предлагаем альтернативный критерий, основанный на оценке ошибки Байеса, который, как мы надеемся, ближе к оптимальному критерию, чем критерии, используемые в настоящее время. . Алгоритм линейного уменьшения размера, основанный на этом критерии, задуман и реализован. Эксперименты демонстрируют его превосходную производительность по сравнению с обычными алгоритмами ».

Упомянутая здесь ошибка Байеса - это в основном проигрыш 0-1.

Эта работа была проделана в контексте сокращения линейных размеров. Я не знаю, насколько это было бы эффективно для обучения сетей глубокого обучения. Но дело в том, и ответ на вопрос: 0-1 потеря не всегда трудно поддается решению. Это может быть относительно хорошо оптимизировано, по крайней мере, для некоторых типов моделей.

— любомир
источник