В целом, я думаю, что с научной и статистической точки зрения было бы более плодотворно начинать с более широкого и различного вопроса, который заключается в том, насколько далеко можно предсказать ответ от кругового предиктора. Здесь я говорю круговой, а не направленный , отчасти потому, что последний включает в себя сферические и даже более сказочные пространства, которые нельзя охватить одним ответом; и отчасти потому, что ваши примеры, время дня и время года , являются круговыми. Еще одним важным примером является направление компаса (относящееся к ветрам, движениям животных или людей, выравниванию и т. Д.), Что характерно для многих круговых проблем: действительно, для некоторых ученых это является более очевидной отправной точкой.
Всякий раз, когда вам это удается, использование синусоидальных и косинусных функций времени в некоторой регрессионной модели является простым и легким для реализации методом моделирования. Это первый порт захода для многих биологических и / или экологических примеров. (Эти два вида часто объединяются, потому что биотические явления, показывающие сезонность, обычно прямо или косвенно реагируют на климат или погоду.)
Для конкретности представьте измерения времени в течение 24 часов или 12 месяцев, чтобы, например,
грех[ 2 π( час / 24 ) ] , cos [ 2 π( час / 24 ) ]
грех[ 2 π( месяц / 12 ) ] , cos [ 2 π( месяц / 12 ) ]
каждый описывает один цикл в течение всего дня или года. Формальный тест отсутствия взаимосвязи между измеренным или подсчитанным откликом и некоторым круговым временем был бы тогда стандартным тестом того, являются ли коэффициенты синуса и косинуса совместно равными нулю в обобщенной линейной модели с синусом и косинусом в качестве предикторов, соответствующей связью и семейством выбирается в зависимости от характера ответа.
Вопрос о предельном распределении ответа (нормального или другого) в этом подходе вторичен и / или должен решаться по выбору семьи.
Заслуга синусов и косинусов, естественно, заключается в том, что они являются периодическими и автоматически оборачиваются, поэтому значения в начале и в конце каждого дня или года обязательно одинаковы. Нет проблем с граничными условиями, потому что нет границ.
Этот подход был назван круговой, периодической, тригонометрической и фурье-регрессией. Для одного вступительного обзора учебника, см. Здесь
На практике,
Такие тесты обычно показывают чрезвычайно значимые результаты на обычных уровнях всякий раз, когда мы ожидаем сезонность. Более интересный вопрос заключается в точной оценке сезонной кривой и в том, нужна ли нам более сложная модель с другими синусоидальными терминами.
Ничто не исключает и других предикторов, и в этом случае нам просто нужны более комплексные модели с включенными другими предикторами, например, синусами и косинусами для сезонности и другими предикторами для всего остального.
В какой-то момент, в зависимости от данных, проблемы, вкусов и опыта исследователя, может стать более естественным выделение аспекта временных рядов проблемы и построение модели с явной временной зависимостью. Действительно, некоторые статистически мыслящие люди отрицают, что есть какой-то другой способ приблизиться к этому.
То, что легко назвать трендом (но не всегда так легко идентифицируемо), подпадает под № 2 или № 3, или даже оба.
Многие экономисты и другие обществоведы, занимающиеся вопросами сезонности на рынках, в национальной и международной экономике или других явлений человека, обычно более впечатлены возможностями более сложной изменчивости в течение каждого дня или (чаще) года. Зачастую, хотя и не всегда, сезонность - это неприятность, которую необходимо устранить или скорректировать, в отличие от ученых-биологов и специалистов по окружающей среде, которые часто считают сезонность интересной и важной, даже главной целью проекта. Тем не менее, экономисты и другие также часто применяют регрессионный подход, но с боеприпасами набор переменных (фиктивных) переменных, чаще всего переменных для каждого месяца или каждого квартала года0 , 1, Это может быть практическим способом попытаться уловить последствия названных праздников, периодов отпусков, побочных эффектов школьных лет и т. Д., А также влияния или потрясения климатического или погодного происхождения. С учетом этих различий большинство приведенных выше комментариев также применимы к экономике и общественным наукам.
Отношение и подходы эпидемиологов и медицинских статистиков, связанных с различиями в заболеваемости, смертности, госпитализации, посещениях клиник и т. П., Имеют тенденцию попадать между этими двумя крайностями.
На мой взгляд, разделение дней или лет на две половины для сравнения обычно произвольно, искусственно и, в лучшем случае, неудобно. Также игнорируется вид гладкой структуры, обычно присутствующей в данных.
РЕДАКТИРОВАТЬ Учетная запись до сих пор не учитывает разницу между дискретным и непрерывным временем, но я не по своему опыту считаю это большим делом на практике.
Но точный выбор зависит от того, как поступают данные и от схемы изменений.
Если бы данные были квартальными и человеческими, я бы, как правило, использовал индикаторные переменные (например, кварталы 3 и 4 часто бывают разными). Если ежемесячно и человек, выбор не ясен, но вам придется много работать, чтобы продать синусы и косинусы большинству экономистов. Если ежемесячно или лучше и биологические или экологические, определенно синусы и косинусы.
РЕДАКТИРОВАТЬ 2 Дополнительные сведения о тригонометрической регрессии
Отличительной особенностью тригонометрической регрессии (названной любым другим способом, если вы предпочитаете) является то, что почти всегда термины синус и косинус лучше всего представлены в модели в парах. Сначала мы масштабируем время дня, время года или направление компаса так, чтобы оно было представлено в виде угла на окружности
в радианах, следовательно, на интервале [ 0 , 2 π ] . Тогда мы используем как можно больше пар sin k θ , cos k θ , k = 1 , 2 , 3 , …θ[ 0 , 2 π]грехk θ , cosk θ , k = 1 , 2 , 3 , …как необходимо в модели. (В круговой статистике тригонометрические соглашения имеют тенденцию превосходить статистические соглашения, поэтому греческие символы, такие как , используются как для переменных, так и для параметров.)θ , ϕ , ψ
Если мы предлагаем пару предсказателей , таких как к регрессии типа модели, то есть оценки коэффициентов, скажем , б 1 , б 2 , для точки в модели, а именно Ь 1 греховную & thetas , б 2 соз θ , Это способ подбора фазы, а также амплитуды периодического сигнала. Иначе говоря, такую функцию, как sin ( θ + ϕ ), можно переписать какгрехθ , cosθб1, б2б1грехθ , б2созθгрех( θ + ϕ )
грехθ cosϕ + cosθ грехϕ ,
но и sin ϕ, представляющие фазу, оцениваются при подгонке модели. Таким образом мы избежим нелинейной проблемы оценки.созφгрехφ
Если мы используем для моделирования кругового изменения, то автоматически максимум и минимум этой кривой находятся на расстоянии половины окружности. Это часто очень хорошее приближение для биологических или экологических вариаций, но, с другой стороны, нам может понадобиться еще несколько терминов, чтобы охватить экономическую сезонность в частности. Это может быть очень хорошей причиной для того, чтобы вместо этого использовать индикаторные переменные, что немедленно приведет к простой интерпретации коэффициентов.б1грехθ + b2созθ