Согласно документации объекта StandardScaler в scikit-learn:
Например, многие элементы, используемые в целевой функции алгоритма обучения (например, ядро RBF машин опорных векторов или регуляризаторы L1 и L2 линейных моделей), предполагают, что все объекты сосредоточены вокруг 0 и имеют дисперсию в том же порядке. Если у признака есть отклонение, которое на несколько порядков больше, чем у других, оно может доминировать в целевой функции и сделать оценщика неспособным учиться на других признаках правильно, как ожидалось.
Я должен масштабировать свои особенности перед классификацией. Есть ли простой способ показать, почему я должен это делать? Ссылки на научные статьи были бы еще лучше. Я уже нашел один, но, вероятно, есть много других.