Как включить


9

Я хочу включить термин Икс и его квадрат Икс2 (переменные предиктора) в регрессию, потому что я предполагаю, что низкие значения Икс положительно влияют на зависимую переменную, а высокие значения оказывают отрицательное влияние. Икс2 должен захватить эффект более высоких значений. Поэтому я ожидаю, что коэффициент Икс будет положительным, а коэффициент Икс2 будет отрицательным. Помимо Икс , я также включаю другие переменные предиктора.

Я читал в некоторых сообщениях здесь, что это хорошая идея, чтобы центрировать переменные в этом случае, чтобы избежать мультиколлинеарности. При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?

  1. Должен ли я центрировать обе переменные по отдельности (в среднем), или я должен центрировать только а затем взять квадрат или я должен центрировать только х 2 и включить исходный х ?ИксИкс2Икс

  2. Это проблема, если является переменной подсчета?Икс

Чтобы не считать переменной-счетчиком, я подумал о том, чтобы разделить ее на теоретически определенную площадь, например, на 5 квадратных километров. Это должно быть немного похоже на расчет плотности точек.Икс

Однако я боюсь, что в этой ситуации мое первоначальное предположение о знаке коэффициентов больше не будет выполнено, как, например, когда и x ² = 4Иксзнак равно2Икс²знак равно4

= 0,4  км 2Иксзнак равно2/5 км20,4 км2

но затем будет меньшепотому что х 2 = ( 2 / 5 ) 2 = 0,16 .Икс2x2=(2/5)2=0.16


1
Ваше регрессионное программное обеспечение автоматически решит проблемы с числовыми значениями, в частности, оно с высокой вероятностью позволит централизовать и стандартизировать ваши данные внутри страны. Как ответить на ваши вопросы о центрировании, зависит от того, как вы хотите интерпретировать коэффициенты.
whuber

Ответы:


4

Ваш вопрос на самом деле состоит из нескольких подвопросов, которые я постараюсь ответить на меру моего понимания.

  • Как отличить зависимость низких и высоких значений от регрессии?

Учитывая и хx - это способ сделать это, но уверены ли вы, что ваш тест убедителен? Сможете ли вы сделать что-то полезное для всех возможных результатов регрессии? Я думаю, что постановка вопроса ясно заранее может помочь, и постановка похожих и связанных вопросов также может помочь. Например, вы можете рассмотреть порог х, для которого наклоны регрессии различны. Это можно сделать с помощьюпеременных модератора. Если разные наклоны (при наложении одного и того же перехвата) совместимы, то у вас нет разницы, в противном случае вы предоставили себе четкий аргумент в пользу их различия.x2x

  • Когда вы должны сосредоточиться и стандартизировать?

Я думаю, что этот вопрос не следует смешивать с первым вопросом и тестом, и я боюсь сосредоточиться вокруг илиx заранее может повлиять на результаты. Я бы посоветовал не центрироваться, по крайней мере, на первом этапе. Помните, что вы, вероятно, не умрете от мультиколлинеарности, многие авторы утверждают, что это просто эквивалентно работе с меньшим размером выборки (здесьиздесь).x2

  • Изменяет ли преобразование дискретной переменной счета в (непрерывную) переменную с плавающей точкой интерпретацию результатов?

Да, будет, но это будет сильно зависеть от первых двух пунктов, поэтому я бы посоветовал вам обратиться к одной вещи за раз. Я не вижу причин, по которым регрессия не будет работать без этого преобразования, поэтому я бы посоветовал вам пока игнорировать это. Также обратите внимание, что путем деления на общий элемент вы меняете масштаб, при котором , но есть совершенно разные способы взглянуть на него, как я писал выше, в котором этот порог рассматривается более явным образом.x2=x


Большое спасибо за ваш ответ, особенно за ссылки !!!
Питер

Было приятно помочь. =)
педрофигейра

4

В целом, центрирование может помочь уменьшить мультиколлинеарность, но «вы, вероятно, не умрете от мультиколлинеарности» (см. Ответ predrofigueira).

Самое главное, чтобы центрирование было значимым, часто требуется центрирование. В простой модели перехват определяется как ожидаемый результат для x = 0 . Если значение x, равное нулю, не имеет смысла, ни itercept не имеет значения. Часто полезно расположить переменную x вокруг ее среднего значения; в этом случае предиктор имеет форму ( x i - ˉ x ), а точка пересечения α является ожидаемым результатом для субъекта, значение которого на x iYязнак равноα+βИкся+εИксзнак равно0ИксИкс(Икся-Икс¯)αИкся равно среднемуИкс¯ .

В таких случаях вы должны центрировать а затем квадрат. Вы не можете центрировать x и x 2 по отдельности, потому что вы регрессируете результат для «новой» переменной ( x i - ˉ x ) , поэтому вы должны возвести в квадрат эту новую переменную. Что может означать центрирование х 2 ?ИксИксИкс2(Икся-Икс¯)Икс2

Вы можете центрировать переменную count, если ее среднее значение имеет смысл , но вы можете просто масштабировать ее. Например, если и «2» могут быть базовой линией, вы можете вычесть 2: ( x i - 2 ) = - 1 , 0 , 1 , 2 , 3 . Перехват становится ожидаемым результатом для субъекта, значение которого на x iИксзнак равно1,2,3,4,5(Икся-2)знак равно-1,0,1,2,3Икся равно «2», эталонному значению.

Что касается деления, нет проблем: ваши оценочные коэффициенты будут больше! Гельман и Хилл , §4.1, приводят пример:

прибыльзнак равно-61000+1300высота (в дюймах)+ошибкаприбыльзнак равно-61000+51высота (в миллиметрах)+ошибкаприбыльзнак равно-61000+81000000высота (в милях)+ошибка

Один дюйм составляет миллиметра, поэтому 51 - 1300 / 25,4 . Один дюйм составляет 1,6 е - 5 эмилей, поэтому 81000000 - 1300 / 1,6 е - 5 . Но эти три уравнения полностью эквивалентны.+25,4511300/+25,41,6е-5810000001300/1,6е-5



Спасибо за ваш ответ, Серхио. Это действительно помогло мне. К сожалению, я могу отметить только один ответ как принятый ответ.
Питер

Пожалуйста. И не волнуйтесь ;-)
Серхио

1

Я предполагаю, что низкие значения х положительно влияют на зависимую переменную, а высокие значения отрицательно.

Хотя я ценю отношение других к центрированию и интерпретации коэффициентов, то, что вы здесь описали, является просто линейным эффектом. Другими словами, то, что вы описали, не указывает на необходимость проверки квадрата х .


Yзнак равноβ0+β1Икс1+β2Икс2+εИксяYЕ[Y|Икс]Е[Y|Икс]/Иксязнак равноβя ИксяYзнак равноβ0+β1Икс1+β2Икс2+β3Икс22+ε, тогда частичный эффект равен β 2 + 2 β 3 x 2Икс2β2+2β3Икс2Икс2

@ rolando2: Я не уверен, говорим ли мы о самте. Если я включу только обычную переменную предиктора, я получу оценочный коэффициент для этого предиктора, который будет либо положительным, либо отрицательным. Исходя из коэффициента, я могу сказать, что, добавив одну единицу к x, y увеличится или уменьшится на определенную величину. Но я не могу выяснить таким образом, приводят ли малые значения к увеличению y, а более высокие значения (с некоторой неизвестной точки) приводят к уменьшению y.
Питер

@Peter - я понимаю и предлагаю вам отредактировать предложение «Я предполагаю» вашего вопроса следующим образом: «Я предполагаю, что в некоторой области x более высокие значения x положительно влияют на зависимую переменную, тогда как в какой-то другой области, более высокие значения имеют отрицательный эффект. "
rolando2
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.