Каковы критерии и решения для нелинейности в статистических моделях?

Я надеюсь, что следующий общий вопрос имеет смысл. Пожалуйста, имейте в виду, что для целей данного конкретного вопроса меня не интересуют теоретические (предметная область) причины введения нелинейности. Поэтому я сформулирую полный вопрос следующим образом:

Какова логическая структура ( критерии и, если возможно, процесс принятия решений ) для введения нелинейности в статистические модели по причинам, отличным от теоретических (предметная область)? Как всегда, соответствующие ресурсы и ссылки также приветствуются.

— Александр Блех
источник

Ответы:

Процесс построения модели вовлекает модельера, принимающего много решений. Одно из решений включает выбор среди различных классов моделей для изучения. Есть много классов моделей, которые можно рассмотреть; например, модели ARIMA, модели ARDL, модели с несколькими источниками ошибок в пространстве состояний, модели LSTAR, модели Min-Max и многие другие. Конечно, некоторые классы моделей шире, чем другие, и не часто можно обнаружить, что некоторые классы моделей являются подклассами других.

Учитывая природу вопроса, мы можем сосредоточиться в основном только на двух классах моделей; линейные модели и нелинейные модели .

Имея в виду вышеприведенную картину, я начну рассмотрение вопроса ОП о том, когда полезно принять нелинейную модель и существует ли логическая основа для этого - с точки зрения статистики и методологии.

Первое, что следует отметить, - это то, что линейные модели представляют собой небольшой подкласс нелинейных моделей. Другими словами, линейные модели являются частными случаями нелинейных моделей. Есть несколько исключений из этого заявления, но для нынешних целей мы не потеряем много, приняв его для упрощения.

Как правило, построитель моделей выбирает класс моделей и переходит к выбору модели из этого конкретного класса, используя некоторую методологию. Простой пример - когда человек решает смоделировать временной ряд как процесс ARIMA, а затем следует методологии Бокса-Дженкинса, чтобы выбрать модель из класса моделей ARIMA. Работа таким образом с методологиями, связанными с семействами моделей, является вопросом практической необходимости.

Следствием решения о построении нелинейной модели является то, что проблема выбора модели становится намного больше (необходимо рассмотреть больше моделей и принять больше решений) по сравнению с выбором из меньшего набора линейных моделей, поэтому существует реальная практический вопрос под рукой. Кроме того, может даже не быть полностью разработанных методологий (известных, принятых, понятых, простых в общении) для использования для выбора из некоторых семейств нелинейных моделей. Кроме того, еще одним недостатком построения нелинейных моделей является то, что линейные модели легче использовать, а их вероятностные свойства более известны ( Teräsvirta, Tjøstheim и Granger (2010) ).

Тем не менее, ФП требует статистических оснований для принятия решения, а не практических или предметных теорий, поэтому я должен продолжать.

Прежде чем даже подумать о том, как решить, с какими нелинейными моделями работать, нужно сначала решить, следует ли вместо этого работать с линейными или нелинейными моделями. Решение! Как сделать этот выбор?

Обращаясь к Грейнджер и Терасвирте (1993) , я принимаю следующий аргумент, который имеет два основных момента в ответ на следующие два вопроса.

В: Когда полезно построить нелинейную модель? Короче говоря, может быть полезно построить нелинейную модель, когда класс линейных моделей уже рассмотрен и считается недостаточным для характеристики проверяемых отношений. Можно сказать, что эта процедура нелинейного моделирования (процесс принятия решений) идет от простого к общему, в том смысле, что она идет от линейного к нелинейному.

В: Существуют ли статистические основания, которые можно использовать для обоснования построения нелинейной модели? Если кто-то решит построить нелинейную модель на основе результатов испытаний на линейность, я бы сказал, что да, есть. Если тестирование на линейность предполагает отсутствие значительной нелинейности во взаимосвязи, то построение нелинейной модели не рекомендуется; тестирование должно предшествовать решению о сборке.

Я конкретизирую эти моменты путем прямой ссылки на Грейнджер и Терасвирта (1993):

Прежде чем строить нелинейную модель, желательно выяснить, действительно ли линейная модель адекватно характеризует анализируемые [экономические] отношения. Если бы это было так, было бы больше статистической теории для построения разумной модели, чем если бы подходила нелинейная модель. Кроме того, получение оптимальных прогнозов на более чем один период вперед было бы намного проще, если бы модель была линейной. Может случиться, по крайней мере, когда временные ряды короткие, что исследователь успешно оценит нелинейную модель, хотя истинная связь между переменными является линейной. Следовательно, опасность ненужного усложнения построения модели реальна, но ее можно уменьшить путем тестирования на линейность.

В более поздней книге Teräsvirta, Tjøstheim и Granger (2010) дан тот же совет, который я сейчас цитирую:

С практической точки зрения [поэтому] полезно проверить линейность, прежде чем пытаться оценить более сложную нелинейную модель. Во многих случаях тестирование даже необходимо со статистической точки зрения. Ряд популярных нелинейных моделей не определяется по линейности. Если истинная модель, сгенерировавшая данные, является линейной, а нелинейная модель заинтересована во вложении этой линейной модели, параметры нелинейной модели нельзя оценить последовательно. Таким образом, тестирование линейности должно предшествовать любому нелинейному моделированию и оценке.

Позвольте мне закончить на примере.

В контексте моделирования бизнес-циклов практический пример использования статистических оснований для обоснования построения нелинейной модели может быть следующим. Поскольку линейные одномерные или векторные авторегрессионные модели не способны генерировать асимметричные циклические временные ряды, стоит рассмотреть подход нелинейного моделирования, который может обрабатывать асимметрии в данных. Расширенная версия этого примера об обратимости данных может быть найдена в Tong (1993) .

Извините, если я слишком много сконцентрировался на моделях временных рядов. Я уверен, однако, что некоторые идеи применимы и в других условиях.

— Грэм Уолш
источник

Грэм, ваш ответ превосходен, и, в то время как другие ответы также превосходны, ваш самый близкий к тому, что я искал (мини-версия, если хотите). +1 и принято. Я высоко ценю ваши усилия по подготовке вашего ответа. Я уверен, что я рассмотрю его не раз, а также ссылки. Я думаю, что книга доктора Харрелла о регрессионных стратегиях также содержит некоторые части структуры, которые в идеале были бы у меня. Кстати, моя идея тематической статистической структуры вдохновлена прекрасной книгой Лизы Харлоу «Сущность многомерного мышления», которую я с удовольствием прочитал.

— Александр Блех

Основная проблема заключается в том, чтобы решить, для каких типов проблем следует ожидать линейности, в противном случае отношения могут быть нелинейными, если позволяет размер выборки. Большинство процессов в биологии, социальных науках и других областях являются нелинейными. Единственные ситуации, когда я ожидаю линейных отношений:

Ньютоновская механика
Предсказание от измерено в более раннее время $Y$ $Y$

Последний пример включает в себя случай, когда имеется зависимая переменная которая также измеряется в базовой линии (нулевой момент времени). $Y$

Я редко вижу взаимосвязь, которая везде линейна в большом наборе данных.

Решение о включении нелинейностей в регрессионные модели исходит не столько из глобального статистического принципа, сколько из того, как устроен мир. Единственным исключением является случай, когда была выбрана неоптимальная статистическая структура, и необходимо ввести нелинейности или условия взаимодействия, чтобы компенсировать неправильный выбор структуры. Иногда могут понадобиться термины взаимодействия, чтобы компенсировать недо-моделирование (например, предполагая линейность) основных эффектов. Может потребоваться больше основных эффектов, чтобы компенсировать потерю информации в результате недомоделирования других основных эффектов.

Исследователи иногда мучаются тем, стоит ли включать определенную переменную в то время, когда они не соответствуют множеству других переменных, заставляя их действовать линейно. По моему опыту предположение о линейности является одним из наиболее нарушенных из всех предположений, которые имеют большое значение.

— Фрэнк Харрелл
источник

+1 Доктор Харрелл, спасибо за ваш ценный ответ. Я понимаю твои мысли. Тем не менее, мне также любопытно (и это было на самом деле суть моего вопроса) ситуации, когда исследователь или ученый должен вводить дополнительные нелинейные компоненты из-за статистических теорий или различных проблем (включая статистику, данные, методологию и т. Д.). .), не предметные доменные теории. Буду признателен за ваше понимание этого.

— Александр Блех

Линейность зависит в той или иной степени (или больше) от данных, чем от процесса. Большинство процессов в большинстве областей являются линейными при рассмотрении в достаточно узком диапазоне (именно поэтому исчисление очень широко используется) и нелинейными в достаточно широком диапазоне (включая механические процессы). Хотя было бы правильно предположить, что почти все может казаться нелинейным, когда имеется достаточно большой размер выборки, возможно, более прагматичный способ сформулировать проблему будет с точки зрения того, как решить, когда полезно принять линейную модель.

— whuber

@whuber: Спасибо за ваш комментарий. Очень полезный. Теперь я лучше понимаю (не) линейность с двух точек зрения : теоретической (предметная область) и ориентированной на данные . Мне все еще интересно узнать о статистических и / или методологических перспективах введения дополнительной нелинейности из-за статистических допущений , проблем (например, после EDA) или подобных аспектов. Поэтому, в дополнение к предложенному вами предложению, я также заинтересован в структуре принятия решений, когда полезно принять нелинейную модель.

— Александр Блех

«Большинство процессов в большинстве областей являются линейными при рассмотрении в достаточно узком диапазоне (именно поэтому исчисление настолько широко используется) и нелинейными в достаточно широком диапазоне», хотя для любого, кто прошел курс по исчислению, это совершенно очевидно, что это открываю глаза для меня. Спасибо, доктор @whuber +1.

— Mugen

@ Александр Блех, вы ищете, скажем, статистический тест или остаточный график, который даст вам статистическую причину (в отличие от причины, вытекающей из базовой теории), чтобы оправдать использование нелинейной модели?

— Mugen

При построении модели я всегда пробую квадраты переменных вместе с линейными компонентами. Например, при построении простой регрессионной модели я добавлю квадратное выражение Если является значительным, это может быть случай для нелинейной модели. Интуиция - это, конечно, расширение Тейлора. Если у вас есть линейная функция, только первая производная должна быть ненулевой. Для нелинейных функций производные высшего порядка будут отличны от нуля.

y_{i} = α + β x_{i} + ε_{i}

$y_i=\alpha +\beta x_i+\varepsilon_i$

y_{i} = α + β x_{i} + γ x_{i}^{2} + ε_{i}

$y_i=\alpha +\beta x_i+\gamma x_i^2+\varepsilon_i$

γ

$\gamma$

Я также часто пробую кандидат в асимметричную спецификацию: Если значительна, то это заставляет меня задуматься изучение асимметричных спецификаций.

y_{i} = α + β max (0, x_{i}) + γ min (0, x_{i}) + ε_{i}

$y_i=\alpha +\beta \max(0,x_i)+\gamma \min(0,x_i)+\varepsilon_i$

γ \neq β

$\gamma\ne\beta$

Иногда в моих данных есть какие-то особые значения или полосы; или мои гистограммы объясняющих переменных имеют перегибы и точки перегиба. Итак, я пробую линейные сплайны вокруг этих особых точек или областей. Простейшие линейные сплайны были бы: Это привело бы к различным наклонам для до и после точки . Вы можете иметь несколько уклонов для одной и той же переменной в разных регионах. Если мой линейный сплайн значительный, то я либо играю с точками узлов и использую его, либо думаю о нелинейных моделях.

x^{a -} = min (x, a)

$x^{a-}=\min(x,a)$

x^{a +} = max (x, a)

$x^{a+}=\max(x,a)$

x

$x$

x = a

$x=a$

Это не системный подход, а лишь одна из вещей, которые я всегда делаю.

— Аксакал
источник

+1 Интересные идеи. Спасибо, что поделились - это приятно знать. То, что я хотел бы иметь (или даже подготовить) - это согласованная структура / рабочий процесс схожих (больших и малых) подходов с основополагающими базовыми рассуждениями. Считаете ли вы, что создание такой структуры было бы 1) осуществимым и 2) полезным для других людей?

— Александр Блех

@ АлександрБлех, я не думаю, что возможно создать универсальную структуру. Самым общим во временном ряду является Бокс-Дженкинс.

— Аксакал

Статистическое тестирование для выбора модели будет искажать оценки и особенно стандартные ошибки.

— Фрэнк Харрелл

@ssdecontrol, аргумент расширения Тейлора также заставляет меня опасаться не использовать члены полиномов более низкого порядка. Например, если подходящей спецификацией является , то у вас должно быть мнение о форме вашей модели.

y_{i} = β_{2} x_{i}^{2} + ε_{i}

$y_i=\beta_2 x_i^2+\varepsilon_i$

— Аксакал

@ssdecontrol: см. Venables (1998), «Изучение линейных моделей», Конференция пользователей S-Plus, Вашингтон, округ Колумбия, для получения дополнительной информации об эвристике ряда Тейлора.

— Scortchi - Восстановить Монику