Я изучаю масштабирование данных, и в частности метод стандартизации. Я понял математику, стоящую за этим, но мне не понятно, почему важно дать функциям нулевое среднее и единичную дисперсию.
Можете ли вы объяснить мне?
Я изучаю масштабирование данных, и в частности метод стандартизации. Я понял математику, стоящую за этим, но мне не понятно, почему важно дать функциям нулевое среднее и единичную дисперсию.
Можете ли вы объяснить мне?
Ответы:
Вопрос о том, важно ли это и почему, зависит от контекста.
Например, для деревьев решений с градиентным усилением это не важно - эти алгоритмы ML «не заботятся» о монотонных преобразованиях данных; они просто ищут точки, чтобы разделить его.
Например, для линейных предикторов масштабирование может улучшить интерпретируемость результатов. Если вы хотите думать о величине коэффициентов как о некотором показателе того, насколько объект влияет на результат, тогда объекты нужно как-то масштабировать до той же области.
Для некоторых предикторов, в частности NN, масштабирование и, в частности, масштабирование до определенного диапазона, может быть важным по техническим причинам. Некоторые из слоев используют функции, которые эффективно изменяются только в некоторой области (аналогично гиперболическому семейству функций ), и если объекты находятся слишком далеко от диапазона, может произойти насыщение. Если это произойдет, числовые производные будут работать плохо, и алгоритм не сможет сходиться к хорошей точке.
В случае нулевого среднего это связано с тем, что некоторые модели машинного обучения не включают термин смещения в свое представление, поэтому мы должны перемещать данные вокруг источника, прежде чем подавать его в алгоритм, чтобы компенсировать отсутствие термина смещения. В случае единичной дисперсии это происходит потому, что многие алгоритмы машинного обучения используют какое-то расстояние (например, евклидово) для определения или прогнозирования. Если конкретный объект имеет широкие значения (т. Е. Большое отклонение), расстояние будет сильно зависеть от этого объекта, а влияние других объектов будет игнорироваться. Кстати, некоторые алгоритмы оптимизации (включая градиентный спуск) имеют лучшую производительность при стандартизации данных.
Следовательно, предлагается привести все функции в один и тот же масштаб, чтобы они были достаточно легкими для обучения. Ниже ссылка также обсуждает аналогичную концепцию. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work