У меня есть набор данных, содержащий 365 наблюдений трех переменных, а именно pm
, temp
и rain
. Теперь я хочу проверить поведение pm
в ответ на изменения в двух других переменных. Мои переменные:
pm10
= Ответ (зависимый)temp
= предиктор (независимый)rain
= предиктор (независимый)
Ниже приведена корреляционная матрица для моих данных:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Проблема в том, что когда я изучал построение регрессионных моделей, было написано, что аддитивный метод должен начинаться с переменной, которая наиболее тесно связана с переменной отклика. В моем наборе данных rain
сильно коррелирует с pm
(по сравнению с temp
), но в то же время это фиктивная переменная (дождь = 1, без дождя = 0), так что я теперь понимаю, с чего мне начать. Я приложил два изображения с вопросом: первое представляет собой диаграмму рассеяния данных, а второе изображение представляет собой диаграмму рассеяния pm10
против rain
, я также не могу интерпретировать диаграмму рассеяния pm10
против rain
. Может ли кто-нибудь помочь мне, как начать?