Я читал главу о множественной регрессии « Анализ данных и графика с использованием R: подход на основе примеров» и был немного озадачен, обнаружив, что он рекомендует проверять линейные отношения между объясняющими переменными (используя диаграмму рассеяния) и, в случае отсутствия ' т любой, превращая их таким образом , они действительно становятся более линейно связаны. Вот некоторые выдержки из этого:
6.3 Стратегия подбора моделей множественной регрессии
(...)
Изучите матрицу диаграммы рассеяния, включающую все объясняющие переменные. (Включение зависимой переменной на данный момент необязательно. ) Сначала посмотрите на наличие нелинейности на графиках объясняющих переменных друг против друга.
(...)
Эта точка идентифицирует стратегию поиска модели - ищите модели, в которых отношения регрессии между объясняющими переменными принимают «простую» линейную форму . Таким образом, если некоторые попарные графики показывают свидетельство нелинейности, рассмотрите возможность использования преобразования (й), чтобы получить более близкие линейные отношения . Хотя это не обязательно может оказаться возможным, следуя этой стратегии, адекватно смоделировать регрессионные отношения, но это хорошая стратегия по причинам, указанным ниже, чтобы следовать при начале поиска.
(...)
Если отношения между объясняющими переменными являются приблизительно линейными, возможно, после преобразования, тогда можно с уверенностью интерпретировать графики переменных-предикторов относительно ответной переменной.
(...)
Может оказаться невозможным найти преобразования одной или нескольких объясняющих переменных, которые обеспечат линейные отношения (попарные), показанные на панелях. Это может создать проблемы как для интерпретации диагностических графиков для любого подобранного уравнения регрессии, так и для интерпретации коэффициентов в подобранном уравнении. Смотри Cook and Weisberg (1999).
Разве я не должен беспокоиться о линейных отношениях между зависимыми переменными (из-за риска мультиколлинеарности) вместо того, чтобы активно преследовать их? Каковы преимущества наличия приблизительно линейно связанных переменных?
Авторы рассматривают проблему мультиколлинеарности позже в этой главе, но эти рекомендации, похоже, расходятся с избеганием мультиколлинеарности.