Функция потерь коэффициента кости по сравнению с кросс-энтропией


27

При обучении нейронных сетей пиксельной сегментации, таких как полностью сверточные сети, как вы принимаете решение использовать функцию кросс-энтропийной потери в сравнении с функцией потери коэффициента Кости?

Я понимаю, что это короткий вопрос, но не совсем уверен, какую другую информацию предоставить. Я просмотрел кучу документации о двух функциях потери, но не смог понять, когда использовать одну над другой.


Почему бы не использовать практический подход, чтобы использовать оба и сравнить результаты. Рассматривая множество различных областей применения, обсуждение функции потерь является отдельной темой расширенного исследования. Поскольку сверточные сети все еще остаются «горячей темой», я предполагаю, что большинство статей все еще будут опубликованы в будущем.
Херувим

Ответы:


27

Одна из убедительных причин использования кросс-энтропии по коэффициенту кубика или подобной метрике IoU заключается в том, что градиенты лучше.

Градиенты кросс-энтропии по логитам - это что-то вроде , где p - выходы softmax, а t - цель. Между тем, если мы попытаемся записать коэффициент кости в дифференцируемой форме: 2 p tп-TпT или2pt2пTп2+T2 , то результирующие градиенты по сравнениюс pнамного уродливее:2t22пTп+Tп и2т(т2-р2)2T2(п+T)2 . Легко представить себе случай, когдаpиtмалы, а градиент увеличивается до некоторого огромного значения. В целом, похоже, что обучение станет более нестабильным.2T(T2-п2)(п2+T2)2пT


Основная причина, по которой люди пытаются использовать коэффициент кости или IoU напрямую, заключается в том, что фактической целью является максимизация этих метрик, а кросс-энтропия - это просто прокси, который проще максимизировать с помощью обратного распространения. Кроме того, коэффициент Dice лучше справляется с классом несбалансированных задач по конструкции:

Тем не менее, дисбаланс классов, как правило, решается простым назначением множителей потерь для каждого класса, так что сеть сильно игнорируется, чтобы просто игнорировать класс, который появляется нечасто, поэтому неясно, действительно ли в этих случаях коэффициент Кости действительно необходим.


Я бы начал с кросс-энтропийной потери, которая, кажется, является стандартной потерей для обучающих сетей сегментации, если только не было веской причины использовать коэффициент Кости.


п-T

3
Когда «главная цель» максимизации потери костей? Я проверил оригинальную статью, и все, что они говорят, это «мы получаем результаты, которые мы наблюдали экспериментально, намного лучше, чем результаты, рассчитанные с помощью одной и той же обученной сети, оптимизирующей многочленные логистические потери с повторным взвешиванием образца». Это не очень убедительно.
Нил Дж

@shimao Под "уродливым" вы имеете в виду, что градиенты могут взорваться, это правильно?
flawr

17

Как подытожили @shimao и @cherub, нельзя сказать ariori, какой из них будет лучше работать с конкретным набором данных. Правильный способ - попробовать оба и сравнить результаты. Кроме того, обратите внимание, что когда дело доходит до сегментации, «сравнивать результаты» не так просто : основанные на IoU меры, такие как коэффициент кости, охватывают только некоторые аспекты качества сегментации; в некоторых приложениях необходимо использовать различные меры, такие как среднее расстояние до поверхности или расстояние по Хаусдорфу . Как видите, даже выбор правильной метрики качества не является тривиальным, не говоря уже о выборе наилучшей функции стоимости.

Лично у меня очень хороший опыт с коэффициентом игры в кости; он действительно творит чудеса, когда речь идет о дисбалансе классов (некоторые сегменты занимают меньше пикселей / вокселей, чем другие). С другой стороны, кривая ошибок обучения превращается в полный беспорядок: она не дала мне абсолютно никакой информации о сходимости, поэтому в этом отношении выигрывает кросс-энтропия. Конечно, это можно / нужно обойти путем проверки ошибки проверки в любом случае.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.