Как вы заявляете, линейные модели, как правило, проще, чем нелинейные модели, то есть они работают быстрее (построение и прогнозирование), их легче интерпретировать и объяснять, и, как правило, они просты в измерениях ошибок. Таким образом, цель состоит в том, чтобы выяснить, соответствуют ли предположения линейной регрессии вашим данным (если вы не поддерживаете линейную, то просто переходите к нелинейной). Обычно вы повторяете график одной переменной со всеми переменными индивидуально, сохраняя все остальные переменные постоянными.
Возможно, еще важнее то, что вы хотите знать, можете ли вы применить какое-то преобразование, взаимодействие с переменной или фиктивную переменную для перемещения ваших данных в линейное пространство. Если вы можете проверить допущения или если вы знаете свои данные достаточно хорошо, чтобы применить хорошо мотивированные или иным образом разумно обоснованные преобразования или модификации, то вы захотите продолжить это преобразование и использовать линейную регрессию. Когда у вас есть остатки, вы можете отобразить их в зависимости от прогнозируемых значений или независимых переменных, чтобы дополнительно решить, нужно ли переходить к нелинейным методам.
Здесь, в герцоге, есть отличная разбивка предположений о линейной регрессии . Перечислены четыре основных допущения, каждое из которых разбито на влияние на модель, способы ее диагностики в данных и возможные способы «исправить» (т.е. преобразовать или добавить) данные, чтобы сделать предположение выполненным. Вот небольшая выдержка сверху, суммирующая четыре допущения, которые вы рассмотрели, но вы должны пойти туда и прочитать разбивки.
Существует четыре основных предположения, которые оправдывают использование моделей линейной регрессии для целей вывода или прогнозирования:
(i) линейность и аддитивность отношений между зависимыми и независимыми переменными:
(а) Ожидаемое значение зависимой переменной - это прямолинейная функция каждой независимой переменной, в которой остальные фиксированы.
(б) Наклон этой линии не зависит от значений других переменных.
(c) Влияние различных независимых переменных на ожидаемое значение зависимой переменной является аддитивным.
(ii) статистическая независимость ошибок (в частности, отсутствует корреляция между> последовательными ошибками в случае данных временных рядов)
(iii) гомоскедастичность (постоянная дисперсия) ошибок
(а) в зависимости от времени (в случае данных временных рядов)
(б) против прогнозов
(в) по сравнению с любой независимой переменной
(iv) нормальность распределения ошибок.