Я считаю, что ответ зависит от сценария.
Рассмотрим NN (нейронную сеть) как оператор F, так что F (вход) = выход . В случае, когда это отношение является линейным, так что F (A * input) = A * output , вы можете либо оставить ненормализованный ввод / вывод в их необработанных формах, либо нормализовать оба, чтобы исключить A. Очевидно, это предположение о линейности нарушается в задачах классификации или почти в любой задаче, которая выводит вероятность, где F (A * input) = 1 * output
На практике нормализация позволяет адаптировать ненастраиваемые сети, что крайне важно для экспериментаторов / программистов. Тем не менее, точное влияние нормализации будет зависеть не только от архитектуры / алгоритма сети, но также от статистического приоритета для ввода и вывода.
Более того, NN часто внедряется для решения очень сложных проблем методом черного ящика, что означает, что основная проблема может иметь очень плохую статистическую формулировку, что затрудняет оценку влияния нормализации, приводя к техническому преимуществу (становясь пригодным для использования) доминировать над его влиянием на статистику.
В статистическом смысле нормализация удаляет вариацию, которая, как считается, не является причинно-следственной в прогнозировании выходных данных, чтобы не допустить, чтобы NN изучил эту вариацию как предиктор ( NN не видит эту вариацию, следовательно, не может использовать ее ).