Возможно, вы захотите интерпретировать ваши коэффициенты. То есть, чтобы можно было сказать что-то вроде «если я увеличу свою переменную на 1, то в среднем и при прочих равных увеличится на ».Икс1Yβ1
Чтобы ваши коэффициенты были интерпретируемыми, линейная регрессия предполагает множество вещей.
Одна из этих вещей не мультиколлинеарность. То есть ваши переменные не должны коррелироваться друг с другом.Икс
Другое - гомосцедастичность . Ошибки ваши моделей фиксации должны иметь ту же дисперсию, то есть вы должны гарантировать , что линейная регрессия не делают небольшие ошибки при малых значениях и больших ошибках для более высоких значений . Другими словами, разница между тем, что вы предсказываете и истинными значениями должна быть постоянной. Вы можете убедиться в этом, убедившись, что следует распределению Гаусса. (Доказательство очень математическое.)ИксИксY^YY
В зависимости от ваших данных, вы можете сделать это гауссовским. Типичные преобразования принимают обратное, логарифм или квадратные корни. Конечно, существует много других, все зависит от ваших данных. Вы должны посмотреть на свои данные, а затем выполнить гистограмму или запустить тест на нормальность , такой как тест Шапиро-Уилка.
Это все методы для построения объективной оценки . Я не думаю, что это имеет какое-либо отношение к конвергенции, как говорили другие (иногда вы также можете захотеть нормализовать свои данные, но это другая тема).
Следование предположениям о линейной регрессии важно, если вы хотите либо интерпретировать коэффициенты, либо если вы хотите использовать статистические тесты в вашей модели. В противном случае забудьте об этом.
Применение логарифм или нормализации данных, также имеет важное значение , так как алгоритмы оптимизации линейной регрессии обычно минимизации , так что если у вас есть какие - то большие выбросы, ваша оценка будет очень обеспокоена минимизируя те , поскольку оно касается квадратичной ошибки, а не абсолютной ошибки. Нормализация данных имеет важное значение в тех случае , и именно поэтому scikit учиться имеет опцию в линейной регрессии конструктора.∥ у^- у∥2Ynormalize