Ссылаясь на заметки Стэнфордского курса о сверточных нейронных сетях для визуального распознавания , в параграфе говорится:
«К сожалению, юниты ReLU могут быть хрупкими во время обучения и могут« умереть ». Например, большой градиент, протекающий через нейрон ReLU, может привести к тому, что веса обновятся таким образом, что нейрон никогда не активируется ни при каком повторении данных. Если это произойдет случается, тогда градиент, текущий через единицу, всегда будет нулевым с этой точки. То есть единицы ReLU могут необратимо умереть во время обучения, так как они могут быть сбиты с коллектора данных. Например, вы можете обнаружить, что целых 40 % вашей сети может быть «мертвым» (т. е. нейроны, которые никогда не активируются по всему набору обучающих данных), если скорость обучения установлена слишком высокой. При правильной настройке скорости обучения это не так часто ».
Что значит умирать от нейронов здесь?
Не могли бы вы дать интуитивное объяснение в более простых терминах.