Как включить

9

Я хочу включить термин $x$ и его квадрат $x^2$ (переменные предиктора) в регрессию, потому что я предполагаю, что низкие значения $x$ положительно влияют на зависимую переменную, а высокие значения оказывают отрицательное влияние. $x^2$ должен захватить эффект более высоких значений. Поэтому я ожидаю, что коэффициент $x$ будет положительным, а коэффициент $x^2$ будет отрицательным. Помимо $x$ , я также включаю другие переменные предиктора.

Я читал в некоторых сообщениях здесь, что это хорошая идея, чтобы центрировать переменные в этом случае, чтобы избежать мультиколлинеарности. При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?

Должен ли я центрировать обе переменные по отдельности (в среднем), или я должен центрировать только а затем взять квадрат или я должен центрировать только и включить исходный ? $x$ $x^2$ $x$
Это проблема, если является переменной подсчета? $x$

Чтобы не считать переменной-счетчиком, я подумал о том, чтобы разделить ее на теоретически определенную площадь, например, на 5 квадратных километров. Это должно быть немного похоже на расчет плотности точек. $x$

Однако я боюсь, что в этой ситуации мое первоначальное предположение о знаке коэффициентов больше не будет выполнено, как, например, когда и $x=2$ $x²=4$

= $x= 2 / 5 \text{ km}^2$ $0.4 \text{ km}^2$

но затем будет меньшепотому что . $x^2$ $x^2= (2/5)^2= 0.16$

— Питер
источник

1

Ваше регрессионное программное обеспечение автоматически решит проблемы с числовыми значениями, в частности, оно с высокой вероятностью позволит централизовать и стандартизировать ваши данные внутри страны. Как ответить на ваши вопросы о центрировании, зависит от того, как вы хотите интерпретировать коэффициенты.

— whuber

4

Ваш вопрос на самом деле состоит из нескольких подвопросов, которые я постараюсь ответить на меру моего понимания.

Как отличить зависимость низких и высоких значений от регрессии?

Учитывая и $x$ - это способ сделать это, но уверены ли вы, что ваш тест убедителен? Сможете ли вы сделать что-то полезное для всех возможных результатов регрессии? Я думаю, что постановка вопроса ясно заранее может помочь, и постановка похожих и связанных вопросов также может помочь. Например, вы можете рассмотреть порог для которого наклоны регрессии различны. Это можно сделать с помощьюпеременных модератора. Если разные наклоны (при наложении одного и того же перехвата) совместимы, то у вас нет разницы, в противном случае вы предоставили себе четкий аргумент в пользу их различия. $x^2$ $x$

Когда вы должны сосредоточиться и стандартизировать?

Я думаю, что этот вопрос не следует смешивать с первым вопросом и тестом, и я боюсь сосредоточиться вокруг или $x$ заранее может повлиять на результаты. Я бы посоветовал не центрироваться, по крайней мере, на первом этапе. Помните, что вы, вероятно, не умрете от мультиколлинеарности, многие авторы утверждают, что это просто эквивалентно работе с меньшим размером выборки (здесьиздесь). $x^2$

Изменяет ли преобразование дискретной переменной счета в (непрерывную) переменную с плавающей точкой интерпретацию результатов?

Да, будет, но это будет сильно зависеть от первых двух пунктов, поэтому я бы посоветовал вам обратиться к одной вещи за раз. Я не вижу причин, по которым регрессия не будет работать без этого преобразования, поэтому я бы посоветовал вам пока игнорировать это. Также обратите внимание, что путем деления на общий элемент вы меняете масштаб, при котором , но есть совершенно разные способы взглянуть на него, как я писал выше, в котором этот порог рассматривается более явным образом. $x^2 = x$

— pedrofigueira
источник

Большое спасибо за ваш ответ, особенно за ссылки !!!

— Питер

Было приятно помочь. =)

— педрофигейра

4

В целом, центрирование может помочь уменьшить мультиколлинеарность, но «вы, вероятно, не умрете от мультиколлинеарности» (см. Ответ predrofigueira).

Самое главное, чтобы центрирование было значимым, часто требуется центрирование. В простой модели перехват определяется как ожидаемый результат для . Если значение равное нулю, не имеет смысла, ни itercept не имеет значения. Часто полезно расположить переменную вокруг ее среднего значения; в этом случае предиктор имеет форму а является ожидаемым результатом для субъекта, значение которого на $y_i=\alpha+\beta x_i+\varepsilon$ $x=0$ $x$ $x$ $(x_i-\bar{x})$ $\alpha$ $x_i$ равно среднему $\bar{x}$ .

В таких случаях вы должны центрировать а затем квадрат. Вы не можете центрировать и отдельности, потому что вы регрессируете результат для «новой» переменной , поэтому вы должны возвести в квадрат эту новую переменную. Что может означать центрирование ? $x$ $x$ $x^2$ $(x_i-\bar{x})$ $x^2$

Вы можете центрировать переменную count, если ее среднее значение имеет смысл , но вы можете просто масштабировать ее. Например, если и «2» могут быть базовой линией, вы можете вычесть 2: . Перехват становится ожидаемым результатом для субъекта, значение которого на $x=1,2,3,4,5$ $(x_i-2)=-1,0,1,2,3$ $x_i$ равно «2», эталонному значению.

Что касается деления, нет проблем: ваши оценочные коэффициенты будут больше! Гельман и Хилл , §4.1, приводят пример:

\begin{aligned} прибыль & знак равно - 61000 + 1300 \cdot высота (в дюймах) + ошибка \\ прибыль & знак равно - 61000 + 51 \cdot высота (в миллиметрах) + ошибка \\ прибыль & знак равно - 61000 + 81000000 \cdot высота (в милях) + ошибка \end{aligned}

$\begin{align} \text{earnings}&=-61000+1300\cdot\text{height (in inches)}+\text{error} \\ \text{earnings}&=-61000+51\cdot\text{height (in millimeters)}+\text{error}\\ \text{earnings}&=-61000+81000000\cdot\text{height (in miles)}+\text{error} \end{align}$

Один дюйм составляет миллиметра, поэтому - . Один дюйм составляет эмилей, поэтому - . Но эти три уравнения полностью эквивалентны. $25.4$ $51$ $1300/25.4$ $1.6e-5$ $81000000$ $1300/1.6e-5$

— Sergio
источник

связанные .

— Хенрик

Спасибо за ваш ответ, Серхио. Это действительно помогло мне. К сожалению, я могу отметить только один ответ как принятый ответ.

— Питер

Пожалуйста. И не волнуйтесь ;-)

— Серхио

1

Я предполагаю, что низкие значения х положительно влияют на зависимую переменную, а высокие значения отрицательно.

Хотя я ценю отношение других к центрированию и интерпретации коэффициентов, то, что вы здесь описали, является просто линейным эффектом. Другими словами, то, что вы описали, не указывает на необходимость проверки квадрата х .

— rolando2
источник

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ε

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\varepsilon$

x_{i}

$x_i$

y

$y$

E [y ∣ x]

$E[y\mid \mathbf{x}]$

\partial E [y ∣ x] / \partial x_{i} = β_{i}

$\partial E[y\mid \mathbf{x}]/\partial x_i=\beta_i$

x_{i}

$x_i$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{2}^{2} + ε

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\beta_3x_2^2+\varepsilon$ , тогда частичный эффект

равен

x_{2}

$x_2$

β_{2} + 2 β_{3} x_{2}

$\beta_2+2\beta_3x_2$

x_{2}

$x_2$

@ rolando2: Я не уверен, говорим ли мы о самте. Если я включу только обычную переменную предиктора, я получу оценочный коэффициент для этого предиктора, который будет либо положительным, либо отрицательным. Исходя из коэффициента, я могу сказать, что, добавив одну единицу к x, y увеличится или уменьшится на определенную величину. Но я не могу выяснить таким образом, приводят ли малые значения к увеличению y, а более высокие значения (с некоторой неизвестной точки) приводят к уменьшению y.

— Питер

@Peter - я понимаю и предлагаю вам отредактировать предложение «Я предполагаю» вашего вопроса следующим образом: «Я предполагаю, что в некоторой области x более высокие значения x положительно влияют на зависимую переменную, тогда как в какой-то другой области, более высокие значения имеют отрицательный эффект. "

— rolando2