Хорошая точность, несмотря на высокое значение потерь


15

Во время обучения простого нейронного бинарного классификатора я получаю высокую величину потерь, используя кросс-энтропию. Несмотря на это, значение точности на проверочном наборе остается достаточно хорошим. Это имеет какое-то значение? Нет строгой корреляции между потерей и точностью?

У меня на тренировке и проверке есть следующие значения: 0,4011 - соотв: 0,8224 - val_loss: 0,4577 - val_acc: 0,7826 . Это моя первая попытка внедрить NN, и я только что подошел к машинному обучению, поэтому не могу правильно оценить эти результаты.


3
Наблюдаете ли вы высокую величину потерь только на тренировочном наборе или проверке тоже? Есть ли значительное снижение точности или потерь при сравнении набора обучения и набора проверки? Некоторые цифры были бы полезны
Хью

Ответы:


20

Я столкнулся с подобной проблемой.

Я обучил свой двоичный классификатор нейронной сети перекрестной потере энтропии. Здесь результат перекрестной энтропии как функции эпохи. Красный - для тренировочного набора, а синий - для тестового набора.

Перекрестная энтропия как функция эпохи.

Показав точность, я с удивлением получил лучшую точность для эпохи 1000 по сравнению с эпохой 50 даже для тестового набора!

Точность как функция эпохи

Чтобы понять взаимосвязь между кросс-энтропией и точностью, я углубился в более простую модель - логистическую регрессию (с одним входом и одним выходом). Далее я просто проиллюстрирую эту связь в 3 особых случаях.

В общем, параметр, где перекрестная энтропия минимальна, не является параметром, где точность максимальна. Тем не менее, мы можем ожидать некоторую связь между кросс-энтропией и точностью.

[Далее я предполагаю, что вы знаете, что такое кросс-энтропия, почему мы используем ее вместо точности для обучения модели и т. Д. Если нет, сначала прочтите это: Как интерпретировать оценку кросс-энтропии? ]

Иллюстрация 1 Это должно показать, что параметр, где перекрестная энтропия минимальна, не является параметром, где точность максимальна, и понять, почему.

Вот мой пример данных. У меня есть 5 баллов, и, например, ввод -1 привел к выводу 0. Образец 5 баллов

Перекрестная энтропия. После минимизации перекрестной энтропии я получаю точность 0,6. Разрез между 0 и 1 выполняется при х = 0,52. Для 5 значений я получаю соответственно перекрестную энтропию: 0,14, 0,30, 1,07, 0,97, 0,43.

Точность. После максимизации точности на сетке я получаю много разных параметров, приводящих к 0,8. Это можно показать непосредственно, выбрав срез x = -0.1. Ну, вы также можете выбрать x = 0,95, чтобы сократить наборы.

В первом случае перекрестная энтропия велика. Действительно, четвертая точка находится далеко от разреза, поэтому имеет большую перекрестную энтропию. А именно, я получаю соответственно перекрестную энтропию: 0,01, 0,31, 0,47, 5,01, 0,004.

Во втором случае кросс-энтропия тоже велика. В этом случае третья точка находится далеко от разреза, поэтому имеет большую перекрестную энтропию. Я получаю соответственно перекрестную энтропию: 5e-5, 2e-3, 4,81, 0,6, 0,6.

aaбНебольшой пример данных

Nзнак равно100aзнак равно0,3бзнак равно0,5

ббaСредний набор

a

aзнак равно0,3

Nзнак равно10000aзнак равно1бзнак равно0

Довольно большие данные

Я думаю, что если модель имеет достаточную емкость (достаточно, чтобы вместить истинную модель), и если данные большие (т.е. размер выборки уходит в бесконечность), то перекрестная энтропия может быть минимальной, когда точность максимальна, по крайней мере, для логистической модели. , У меня нет доказательств этого, если у кого-то есть ссылка, пожалуйста, поделитесь.

Библиография: Тема, связывающая перекрестную энтропию и точность, интересна и сложна, но я не могу найти статьи, связанные с этим ... Изучать точность интересно, потому что, несмотря на неправильное правило подсчета очков, каждый может понять его значение.

Примечание: во- первых, я хотел бы найти ответ на этом веб-сайте, посты, касающиеся взаимосвязи между точностью и кросс-энтропией, многочисленны, но с несколькими ответами, см .: Сопоставимые кросс-энтропии по трассировке и тестированию приводят к очень разным погрешностям ; Потеря валидации снижается, а точность валидации ухудшается ; Сомнение в категориальной функции кросс-энтропийной потери ; Интерпретация потери журнала в процентах ...


Очень хорошие иллюстрации. Вдохновленный этими иллюстрациями, я делаю вывод о 2 возможных причинах. 1. Модель слишком проста, чтобы извлечь необходимые функции для прогнозирования. В вашей иллюстрации 1 это многократная проблема, и для получения 100% точности требуется еще один слой.
Diansheng

-1

Ахстат дает очень хорошие иллюстрации.

Вдохновленный этими иллюстрациями, я делаю вывод о 2 возможных причинах. 1. Модель слишком проста, чтобы извлечь необходимые функции для прогнозирования. В вашей иллюстрации 1 это многократная проблема, и для получения 100% точности требуется еще один слой. 2. В данных слишком много шумных меток (сравните рисунки 1 и 3).

Что касается иллюстрации 2, это объясняет, почему мы не можем добавить слишком много регуляризации L1 / L2 в модель.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.