Приносит свои извинения за неправильное использование технических терминов. Я работаю над проектом семантической сегментации с помощью сверточных нейронных сетей (CNN); пытаясь реализовать архитектуру типа Encoder-Decoder, поэтому размер вывода совпадает с размером ввода.
Как вы оформляете этикетки? Какую функцию потерь следует применять? Особенно в ситуации тяжелого дисбаланса классов (но соотношение между классами варьируется от изображения к изображению).
Задача касается двух классов (объекты интереса и фона). Я использую Keras с бэкэндом тензорного потока.
До сих пор я собираюсь разработать ожидаемые выходные данные, которые будут иметь те же размеры, что и входные изображения, применяя пиксельную маркировку. Конечный слой модели имеет либо активацию softmax (для 2 классов), либо сигмовидную активацию (чтобы выразить вероятность того, что пиксели принадлежат классу объектов). У меня проблемы с разработкой подходящей целевой функции для такой задачи, типа:
function(y_pred,y_true)
,
по согласованию с Керасом .
Пожалуйста, попробуйте конкретизировать размеры задействованных тензоров (вход / выход модели). Любые мысли и предложения очень ценятся. Спасибо !