Использование круговых предикторов в линейной регрессии


19

Я пытаюсь подобрать модель, используя данные о ветре (0, 359) и время суток (0, 23), но я обеспокоен тем, что они плохо вписываются в линейную регрессию, поскольку сами по себе они не являются линейными параметрами. Я хотел бы преобразовать их с помощью Python. Я видел некоторые упоминания о вычислении среднего вектора путем взятия греха и cos градусов, по крайней мере, в случае ветра, но не в целом.

Есть ли библиотека Python или соответствующий метод, который может быть полезным?


1
Спасибо, что задали этот вопрос. Обратите внимание, что запрос кода или библиотек не по теме (основная часть вашего вопроса, безусловно, по теме), поэтому этот аспект может быть или не быть покрыт ответами здесь.
gung - Восстановить Монику

Какова переменная ответа (результат, зависимая переменная) здесь? Являются ли направление ветра и время суток предикторами?
Ник Кокс

@NickCox Да, и направление ветра, и время суток являются предикторами. Результатом является целочисленное значение, представляющее концентрацию частиц (загрязнение воздуха). Есть и другие другие предикторы, в том числе температура, влажность и т. Д., Но я не думаю, что их нужно преобразовывать.
compguy24

1
Я позволил себе редактировать заголовок. Предыдущее название «Линейное распределение градусов по кругу», на мой взгляд, вообще не охватывало вопрос.
Ник Кокс,

Ответы:


24

Направление ветра (здесь измеряется в градусах, предположительно как направление компаса по часовой стрелке от севера) является круговой переменной. Тест состоит в том, что обычное начало шкалы совпадает с концом, то есть . Когда рассматривается как предиктор, это, вероятно, лучше всего отображается на синус и косинус. Каким бы ни было ваше программное обеспечение, вероятно, что углы будут измеряться в радианах, поэтому преобразование будет некоторым эквивалентом0=360

sin(π direction/180),cos(π direction/180)

учитывая, что радианы . Точно так же время суток, измеренное в часах с полуночи, можно сопоставить с синусом и косинусом, используя= 360 2π=360

sin(π time/12),cos(π time/12)

или

sin(π(time+0.5)/12),cos(π(time+0.5)/12)

в зависимости от того, как именно время было записано или должно быть интерпретировано.

Иногда природа или общество являются обязательными, и зависимость от круговой переменной принимает форму некоторого направления, являющегося оптимальным для реакции, а противоположное направление (на половине круга) является пессимальным. В этом случае может быть достаточно одного синуса и косинуса; для более сложных шаблонов вам могут понадобиться другие термины. Для гораздо более подробно учебник по этой методике круговой, Фурье периодической, тригонометрической регрессии можно найти здесь , с , в свою очередь дальнейшие ссылки. Хорошей новостью является то, что после того, как вы создали синус и косинус, они станут дополнительными предикторами в вашей регрессии.

Существует много литературы по круговой статистике, которая сама по себе рассматривается как часть статистики направлений. Как ни странно, этот метод часто не упоминается, поскольку в этой литературе основное внимание уделяется переменным кругового отклика. Суммирование круговых переменных их векторными средствами является стандартным описательным методом, но не является обязательным или непосредственно полезным для регрессии.

Некоторые подробности о терминологии Направление ветра и время суток представлены в статистических терминах переменными, а не параметрами, независимо от использования в вашей отрасли науки.

Линейная регрессия определяются по линейности в параметрах, т.е. для вектора предсказанного это вектор параметры , а не матрица предикторов , что является более важным. Таким образом, в этом случае тот факт, что такие предикторы, как синус и косинус измеряются по круговым шкалам, а также ограничиваются , не препятствуют их появлению в линейной регрессии.X β β X [ - 1 , 1 ]yXββX[1,1]

Случайный комментарий Для переменной отклика, такой как концентрация частиц, я ожидал бы использовать обобщенную линейную модель с логарифмической связью, чтобы обеспечить положительные прогнозы.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.