Имеет ли смысл добавлять в модель квадратный член, но не линейный?

57

У меня есть (смешанная) модель, в которой один из моих предикторов априори должен быть только квадратично связан с предиктором (из-за экспериментальных манипуляций). Следовательно, я хотел бы добавить только квадратичный член в модель. Две вещи не дают мне этого сделать:

Я думаю, что я читал кое-что, что вы должны всегда включать полином низшего порядка при подборе полиномов высшего порядка. Я забыл, где я его нашел, и в литературе, на которую я смотрел (например, Faraway, 2002; Fox, 2002), я не могу найти хорошего объяснения.
Когда я добавляю оба, линейный и квадратный член, оба значимы. Когда я добавляю только один из них, они не значимы. Однако линейное отношение предиктора и данных не интерпретируется.

В контексте моего вопроса используется, в частности, смешанная модель lme4, но я хотел бы получить ответы, которые могли бы объяснить, почему это так или почему нехорошо включать многочлен более высокого порядка, а не многочлен более низкого порядка.

При необходимости я могу предоставить данные.

regression polynomial

— Хенрик
источник

5

Я думаю, что ответы на этот вопрос могут быть полезны.

6

Да, я согласен с прокрастинатором, и вопросы взаимодействия по сути одинаковы. У нас есть несколько высоко оцененных вопросов по теме. В дополнение к предложению Pro см. Также Нужны ли всем терминам взаимодействия их отдельные термины в регрессионной модели? и что, если взаимодействие уничтожит мои прямые эффекты в регрессии? ,

— Энди У

Спасибо за напоминание на эти вопросы. Из приведенных ответов видно, что это хорошая стратегия, если у вас есть хорошие априорные причины включать только квадратичный термин, а не ошибаться. Остается вопрос о масштабируемости (см. Stats.stackexchange.com/a/27726/442 ). Должен ли я центрировать свою переменную перед подгонкой, когда используется только квадратный термин?

— Хенрик

1

@Henrik - мой ответ в опубликованной вами ссылке касался того, как вывод модели зависит от произвольных сдвигов в значениях предикторов (таких как среднее центрирование) - нежелательно иметь предметное заключение, зависящее от чего-то столь произвольного, поэтому мой ответ на ваш вопрос «нет» по той же причине.

— Макро

2

Вопрос квадратичного и линейного достаточно концептуально отличается от взаимодействий, которые, я думаю, не следует считать дубликатами.

— gung - Восстановить Монику

66

1. Зачем включать линейный термин?

Интересно отметить, что квадратичные отношения могут быть записаны двумя способами:

y = a_{0} + a_{1} x + a_{2} x^{2} = a_{2} (x - b)^{2} + c

$y = a_0 + a_1 x + a_2 x^2 = a_2(x - b)^2 + c$

(где, приравнивая коэффициенты, находим и ). Значение соответствует глобальному экстремуму отношения (геометрически оно определяет вершину параболы). $-2a_2 b = a_1$ $a_2 b^2 + c = a_0$ $x=b$

Если вы не включите линейный член , возможности уменьшатся до $a_1 x$

y = a_{0} + a_{2} x^{2} = a_{2} (x - 0)^{2} + c

$y = a_0 + a_2 x^2 = a_2(x - 0)^2 + c$

(где теперь, очевидно, и предполагается, что модель содержит постоянный член ). То есть вы заставляете . $c = a_0$ $a_0$ $b=0$

В свете этого вопрос № 1 сводится к тому, уверены ли вы, что глобальный экстремум должен возникнуть при . Если да, то вы можете смело опустить линейный член . В противном случае вы должны включить его. $x=0$ $a_1 x$

2. Как понимать изменения в значении, когда термины включены или исключены?

Это подробно обсуждается в соответствующей теме на https://stats.stackexchange.com/a/28493 .

В данном случае значение указывает на наличие кривизны в отношении, а значение указывает на то, что отличен от нуля: похоже, вам нужно включить оба термина (а также, конечно, константу). $a_2$ $a_1$ $b$

— Whuber
источник

1

Спасибо, что. Отличный ответ. Так что, если я центрирую теоретический экстремум на 0 (на самом деле это минимум), я буду в порядке, пропуская линейный член. Это на самом деле приводит к очень значимому квадратичному предиктору (без линейного).

— Хенрик,

если и линейные, и квадратичные члены переменной коррелируют, могу ли я включить оба из них в модель или я должен исключить один (который, как я полагаю, должен быть квадратичным)?

— МТАО

@Teresa Нет общей причины исключать коррелированные термины в регрессии. (Если бы это было так, подавляющее большинство когда-либо созданных регрессионных моделей были бы в беде!) Очень сильно коррелированные термины, которые вместе не вносят ничего значимого в соответствие модели по сравнению с любым из этих терминов, могут быть сведены к подмножеству этих терминов.

— whuber

@ whuber, большое спасибо! Также для модели логистической регрессии я использовал отношение шансов для оценки величины эффекта, но только с линейными членами. Могу ли я использовать один и тот же подход и интерпретировать результаты одинаково, когда у меня линейный и квадратичный характер?

— Мтао

Не совсем. Причина в том, что вы не можете отдельно изменить линейные и квадратичные члены. Вы должны учитывать, как изменится ответ, когда вы немного измените исходную переменную.

— whuber

22

@whuber дал действительно отличный ответ здесь. Я просто хочу добавить небольшой приветственный комментарий. В вопросе говорится, что «линейное отношение предиктора и данных не интерпретируется». Это намекает на общее недоразумение, хотя я обычно слышу его на другом конце («какова интерпретация квадратного [кубического и т. Д.] Термина?»).

Когда у нас есть модель с несколькими различными ковариатами, каждому бета [термину] обычно может быть предоставлена своя интерпретация. Например, если:

{\hat{GPA}}_{c o l l e g e} = β_{0} + β_{1} {GPA}_{h i g h s c h o o l} + β_{2} class rank + β_{3} SAT,

$\widehat{\text{GPA}}_{college}=\beta_0+\beta_1\text{GPA}_{highschool}+\beta_2\text{class rank}+\beta_3\text{SAT},$

(Средний балл означает средний балл;
ранг - это порядок среднего балла учащегося относительно других учащихся той же средней школы; &
SAT означает «тест на учебную способность» - стандартный общенациональный тест для студентов, поступающих в университет)

тогда мы можем назначить отдельные интерпретации для каждого бета / термина. Например, если средний балл ученика старшей школы был на 1 балл выше - при прочих равных условиях - мы ожидаем, что их средний балл колледжа будет балла выше. $\beta_1$

Однако важно отметить, что не всегда допустимо толковать модель таким образом. Один очевидный случай - когда есть взаимодействие между некоторыми из переменных, так как было бы невозможно для отдельного члена отличаться и все еще иметь постоянное значение - по необходимости, член взаимодействия также изменился бы. Таким образом, когда есть взаимодействие, мы не интерпретируем основные эффекты, а только простые эффекты , как это хорошо понятно.

Ситуация с властными терминами прямо аналогична, но, к сожалению, не очень понятна. Рассмотрим следующую модель: (В этой ситуации, . Предназначена для представления прототипичный непрерывного ковариативным) Это не возможно для до изменения без изменяющимися также, и наоборот. Проще говоря, когда в модели есть полиномиальные термины, различные термины, основанные на одном и том же лежащем в основе ковариате, не допускаются в отдельных интерпретациях. ( , , и т.д.) термин не имеет никакого самостоятельного значения. Тот факт, что

\hat{y} = β_{0} + β_{1} x + β_{2} x^{2}

$\hat{y}=\beta_0+\beta_1x+\beta_2x^2$

x

$x$

x

$x$

x^{2}

$x^2$ $x^2$ $x$ $x^{17}$

p

$p$ Полиномиальный термин «сила» «значительный» в модели указывает на наличие «изгибов» в функции, относящейся к и . К сожалению, но неизбежно, что, когда кривизна существует, интерпретация становится более сложной и, возможно, менее интуитивной. Чтобы оценить изменение в при изменении , нам нужно использовать исчисление. Производная от вышеуказанной модели: которая представляет собой мгновенную скорость изменения ожидаемого значения при изменении , при прочих равных условиях. Это не так чисто, как интерпретация самой топовой модели; Важно отметить, что мгновенная скорость изменения

p - 1

$p-1$

x

$x$

y

$y$

\hat{y}

$\hat{y}$

x

$x$

\frac{d y}{d x} = β_{1} + 2 β_{2} x

$\frac{dy}{dx}=\beta_1+2\beta_2x$

y

$y$

x

$x$

y

$y$ зависит от уровня с которого оценивается изменение $x$ . Кроме того, скорость изменения является мгновенной скоростью; то есть оно само непрерывно изменяется в течение интервала от до . Это просто природа криволинейных отношений.

y

$y$

x_{o l d}

$x_{old}$

x_{n e w}

$x_{new}$

— Gung - Восстановить Монику
источник

1

Отличный ответ! Это напоминает мне несколько превосходных ответов, которые предоставил пользователь chl для интерпретации эффектов взаимодействия . В этом ответе он дает ссылки на статьи. Каковы лучшие методы определения эффектов взаимодействия? , И дает замечательный пример графического отображения взаимодействия с использованием коплотов в этом ответе. Возможно ли взаимодействие между двумя непрерывными переменными? ,

— Энди У

1

На ответ Ганга я просто хочу сказать, что статистическое моделирование включает шум, который может скрыть детали в модели полиномиальной регрессии. Я думаю, что центральный вопрос, который поднял Билл Хубер, был серьезным, потому что в одной формулировке отсутствует линейный термин, а в другой - с квадратичным. Сила кривизны в сигнале диктует необходимость члена более высокого порядка, но в действительности ничего не говорит нам и о необходимости линейного члена.

— Майкл Черник

7

Ответ @ whuber выше направлен на то, чтобы указать, что опускание линейного члена - это «обычная» квадратичная модель, равносильно тому, чтобы сказать: «Я абсолютно уверен, что экстремум находится в ». $x=0$

Тем не менее, вам также необходимо проверить, есть ли у используемого вами программного обеспечения "гоча". Некоторые программы могут автоматически центрировать данные при подборе полинома и проверке его коэффициентов, если вы не отключите центрирование полинома. Таким образом, он может соответствовать уравнению, которое выглядит примерно так: где - среднее значение ваших s. Это заставило бы экстремум быть в . $Y = b_0 + b_2(x - \bar{x})^2$ $\bar{x}$ $x$ $x=\bar{x}$

Ваше утверждение о том, что как линейные, так и квадратичные термины являются значимыми при их вводе, требует некоторого пояснения. Например, SAS может сообщить об испытании типа I и / или типа III для этого примера. Тип I тестирует линейное перед добавлением квадратичного. Тип III проверяет линейное с квадратичным в модели.

— Эмиль Фридман
источник

2

Это разумный момент, но только потому, что данные были центрированы до создания , не означает, что вы можете быть «абсолютно уверены, что экстремум находится в ». Сказать это сейчас равносильно тому, чтобы сказать «экстремум в » раньше . В любом случае вы делаете ставку на непредвзятость вашей модели на вашу способность указать значение x экстремума с бесконечной точностью. Разница между тестами типа I и типа III также является потенциально интересным дополнением, но, с другой стороны, они будут отличаться только в том случае, если & коррелируют, т. Е. Если бы не было центрирования .

x^{2}

$x^2$

x = 0

$x=0$

x = \bar{x}

$x=\bar{x}$

x

$x$

x^{2}

$x^2$

— gung - Восстановить Монику

С другой стороны, вы можете ссылаться на вклады пользователей, указав их имя пользователя, возможно с символом «at». Например, в этом случае, «@ whuber ответ правильный по цели ...» (настроение, с которым я согласен.)

— gung - Восстановить Монику

1

Спасибо, Эмиль, за то, что поделились этими напоминаниями: им обоим стоит помнить.

— whuber

3

Brambor, Clark and Golder (2006) (который поставляется с интернет-приложением ) имеют четкое представление о том, как понимать модели взаимодействия и как избежать распространенных ошибок, в том числе о том, почему вы должны (почти) всегда включать термины более низкого порядка ( «учредительные термины») в моделях взаимодействия.

Аналитики должны включать все определяющие термины при определении моделей мультипликативного взаимодействия, за исключением очень редких случаев. Под учредительными терминами мы подразумеваем каждый из элементов, составляющих термин взаимодействия. [..]

Тем не менее, читатель должен отметить, что модели мультипликативного взаимодействия могут принимать различные формы и могут включать квадратные члены, такие как или члены взаимодействия более высокого порядка, такие как . Независимо от того, какую форму принимает термин взаимодействия, должны быть включены все учредительные термины. Таким образом, следует включать, когда членом взаимодействия является а , , , , и следует включать, когда членом взаимодействия является . $X^2$ $XZJ$ $X$ $X^2$ $X$ $Z$ $J$ $XZ$ $XJ$ $ZJ$ $XZJ$

Невыполнение этого требования может привести к заниженной модели, что приведет к искаженным оценкам. Это может привести к ошибочным выводам.

Если это так и соотносится с (или ), как это будет происходить практически в любых социальных науках, то исключение учредительного члена приведет к смещенным (и противоречивым) оценкам , и . Хотя это не всегда признается как таковой, это прямой случай пропущенного переменного смещения (Greene 2003, pp. 148–149). $Z$ $XZ$ $X$ $Z$ $\beta_0$ $\beta_1$ $\beta_3$

— landroni
источник