Почему центрирование независимых переменных может изменить основные эффекты с помощью модерации?

28

У меня есть вопрос, связанный с множественной регрессией и взаимодействием, навеянный этой веткой резюме: термин взаимодействия, использующий центрированные переменные иерархический регрессионный анализ? Какие переменные мы должны центрировать?

При проверке эффекта модерации я центрирую свои независимые переменные и умножаю центрированные переменные, чтобы вычислить срок моего взаимодействия. Затем я запускаю свой регрессионный анализ и проверяю основные эффекты и эффекты взаимодействия, которые могут показывать модерацию.

Если я повторяю анализ без центрирования, то, очевидно, коэффициент детерминации ( ) не изменяется, а коэффициенты регрессии ( s) меняются . Это кажется ясным и логичным. $R^2$ $\beta$

Чего я не понимаю: p-значения основных эффектов существенно меняются с центрированием, хотя взаимодействие не меняется (что правильно). Таким образом, моя интерпретация основных эффектов может кардинально измениться - просто определяется центрированием или нет. (Это все те же данные в обоих анализах!)

Может кто-нибудь уточнить? - Потому что это будет означать, что опция центрировать мои переменные будет обязательной, и каждый должен делать это, чтобы получить одинаковые результаты с одинаковыми данными.

Большое спасибо за распространение этой проблемы и ваши всесторонние объяснения. Будьте уверены, что ваша помощь очень ценится!

Для меня самое большое преимущество центрирования - избегать мультиколлинеарности. До сих пор довольно сложно установить правило, центрироваться или нет. У меня сложилось впечатление, что большинство ресурсов предлагают центрировать, хотя при этом есть некоторые «риски». Я снова хочу подчеркнуть тот факт, что два исследователя, имеющие дело с одним и тем же материалом и данными, могут прийти к разным результатам, потому что один занимается центрированием, а другой - нет. Я только что прочитал какую-то часть книги Борца (он был профессором и своего рода звездой статистики в Германии и Европе), и он даже не упоминает эту технику; просто указывает, чтобы быть осторожным в интерпретации основных эффектов переменных, когда они участвуют во взаимодействиях.

В конце концов, когда вы проводите регрессию с одним IV, одним модератором (или вторым IV) и DV, вы бы порекомендовали центрировать или нет?

regression interaction centering

— Марк Шуберт
источник

5

Я почти никогда не использую центрирование, находя это совершенно ненужным и запутывающим.

— Фрэнк Харрелл

3

Прочитайте ответы еще раз внимательно. Ваши выводы не меняются, когда вы центрируете независимые переменные или применяете линейное преобразование - если они правильно нарисованы. Мультиколлинеарность из-за отсутствия центрирования является чисто числовой проблемой и решается автоматически любым достойным программным обеспечением.

— Scortchi - восстановим Моника

1

Это явление (изменения p-значений) может быть понято как следствие квадратичной природы взаимодействий, как объяснено в stats.stackexchange.com/questions/28730/… .

— whuber

23

В моделях без терминов взаимодействия (то есть без терминов, которые построены как произведение других терминов), коэффициент регрессии каждой переменной представляет собой наклон поверхности регрессии в направлении этой переменной. Он постоянен, независимо от значений переменных, и поэтому можно сказать, что он измеряет общий эффект этой переменной.

В моделях с взаимодействиями эта интерпретация может быть сделана без дальнейшей квалификации только для тех переменных, которые не участвуют ни в каких взаимодействиях. Для переменной, которая участвует во взаимодействиях, коэффициент регрессии "основного эффекта", то есть коэффициент регрессии самой переменной, представляет собой наклон поверхности регрессии в направлении этой переменной, когда все другие переменные, которые взаимодействие с этой переменной имеет нулевые значения , а критерий значимости коэффициента относится к наклону регрессионной поверхности только в этой области пространства предиктора, Поскольку не требуется, чтобы в этой области пространства действительно были данные, коэффициент основного эффекта может иметь небольшое сходство с наклоном регрессионной поверхности в области пространства предикторов, где данные фактически наблюдались.

В терминах anova коэффициент основного эффекта аналогичен простому главному эффекту, а не общему основному эффекту. Более того, это может относиться к тому, что в ановидном дизайне будут пустые ячейки, в которые данные были получены путем экстраполяции данных из ячеек.

Для измерения общего эффекта переменной, который аналогичен общему основному эффекту в анове и не экстраполирует за пределы области, в которой наблюдались данные, мы должны взглянуть на средний наклон поверхности регрессии в направлении переменной где усреднение по N наблюдавшимся случаям. Этот средний наклон может быть выражен как взвешенная сумма коэффициентов регрессии всех членов в модели, которые включают в себя рассматриваемую переменную.

Веса неудобны для описания, но их легко получить. Коэффициент основного эффекта переменной всегда получает вес 1. Для каждого другого коэффициента члена, включающего эту переменную, вес является средним значением произведения других переменных в этом члене. Например, если у нас есть пять «сырых» переменных x1, x2, x3, x4, x5, плюс четыре двусторонних взаимодействия (x1,x2), (x1,x3), (x2,x3), (x4,x5)и одно трехстороннее взаимодействие (x1,x2,x3), то модель

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

и общие основные эффекты

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

где M [.] обозначает выборочное среднее значение количества в скобках. Все термины продукта в скобках относятся к тем, которые были сконструированы для проведения регрессии, поэтому регрессионная программа уже должна знать о них и должна иметь возможность печатать их средства по запросу.

В моделях, которые имеют только основные эффекты и двусторонние взаимодействия, существует более простой способ получения общих эффектов: центрируйте [1] необработанные переменные в их средстве. Это должно быть сделано до вычисления условий продукта, а не продуктов. Тогда все выражения M [.] Станут 0, а коэффициенты регрессии будут интерпретироваться как общие эффекты. Значения b будут меняться; Значения Б не будут. Только те переменные, которые участвуют во взаимодействиях, должны центрироваться, но обычно нет никакого вреда в центрировании других измеряемых переменных. Общий эффект центрирования переменной заключается в том, что, помимо изменения перехвата, он изменяет только коэффициенты других переменных, которые взаимодействуют с центрированной переменной. Особенно, это не изменяет коэффициенты любых слагаемых, которые включают центрированную переменную. В приведенном выше примере центрирование x1 изменит b0, b2, b3 и b23.

[1 - «Центрирование» используется разными людьми способами, которые различаются настолько, чтобы вызвать путаницу. Как здесь используется, «центрирование переменной в #» означает вычитание # из всех баллов по переменной, преобразование исходных баллов в отклонения от #.]

Так почему бы не всегда сосредоточиться на средствах, обычно? Три причины Во-первых, сами коэффициенты основного эффекта нецентрированных переменных могут представлять интерес. Центрирование в таких случаях было бы контрпродуктивным, поскольку оно изменяет коэффициенты основного эффекта других переменных.

Во-вторых, центрирование сделает все выражения M [.] 0 и, таким образом, преобразует простые эффекты в общие эффекты, только в моделях без трехстороннего или более высокого взаимодействия . Если модель содержит такие взаимодействия, тогда вычисления b -> B все еще должны выполняться, даже если все переменные центрированы по их средним значениям.

В-третьих, центрирование на значении, таком как среднее, которое определяется распределением предикторов, а не рациональным выбором, означает, что все коэффициенты, на которые влияет центрирование, будут специфичны для вашей конкретной выборки. Если вы сосредотачиваетесь на среднем значении, то кто-то, пытающийся повторить ваше исследование, должен сосредоточиться на своем среднем значении, а не на своем собственном значении, если он хочет получить те же коэффициенты, что и вы. Решением этой проблемы является центрирование каждой переменной в рационально выбранном центральном значении этой переменной, которое зависит от значения баллов и не зависит от распределения баллов. Однако вычисления b -> B все еще остаются необходимыми.

Значимость общих эффектов может быть проверена с помощью обычных процедур для тестирования линейных комбинаций коэффициентов регрессии. Однако результаты следует интерпретировать с осторожностью, поскольку общие эффекты не являются структурными параметрами, а зависят от дизайна. Можно ожидать, что структурные параметры - коэффициенты регрессии (нецентрированные или с рациональным центрированием) и дисперсия ошибок - останутся неизменными при изменениях в распределении предикторов, но общие эффекты, как правило, изменятся. Общие эффекты специфичны для конкретной выборки и не должны распространяться на другие выборки с различным распределением на предикторах. Если общий эффект значим в одном исследовании, а не в другом, он может отражать не что иное, как разницу в распределении предикторов.

— Рэй Купман
источник

10

$\beta$

$y=\beta_1x_1+\beta_2x_2+\beta_3x_1x_2+\epsilon$ $\beta_1$ $x_1$ $\beta_3x_1x_2$ $x_1$ $x_1$ $x_2$ $\beta$

$\beta$ $\beta_1$ $y$ $x_1$ $x_2=0$ $x_1$ $y$ $x_2$ $\beta_1$ $x_2$

$\beta$ $x_1$ $y$ $x_2$ $y$ $x_1$ $x_2$

— Патрик Куломб
источник

-1

Я сходил с ума от одного и того же вопроса, но я наконец нашел решение для твоей и моей проблемы. Это все о том, как вы рассчитываете ваши центрированные переменные. Доступны два варианта:
1. СРЕДСТВО - ИНДИВИДУАЛЬНЫЕ ПЕРЕМЕННЫЕ 2. ИНДИВИДУАЛЬНЫЕ ПЕРЕМЕННЫЕ - СРЕДСТВО
Вы, вероятно, рассчитали свои центрированные переменные как (отдельная переменная - среднее значение) , поэтому те, у которых низкие значения, получат отрицательные оценки, а те, у которых высокие значения, получат положительные баллы.
Я объясню на примере, чтобы было легче понять. Я хочу посмотреть, как мышечная сила влияет на костную массу, и я хочу принять во внимание пол, чтобы увидеть, по-разному ли это влияет на девочек и мальчиков. Идея состоит в том, что чем выше сила мышц, тем выше масса кости. Поэтому я имею:

Зависимая переменная: масса кости. Независимые переменные: пол, мышечная сила, взаимодействие_SEX_MUSCLEstrength.

Поскольку я обнаружил мультиколлинеарность (обычно это происходит, когда у вас есть термин взаимодействия), я сконцентрировал мышечную силу (MEAN - ИНДИВИДУАЛЬНАЯ ПЕРЕМЕННАЯ) и создал новый термин взаимодействия с новой центрированной переменной. Мои коэффициенты были

0.902
-0.010
-0.023
0.0002

$0.902 - (0 * 0.010) – (0.023 * muscle centred value) + (Interaction * 0.0002)$

Глядя на это, вы можете подумать, что мышцы негативно влияют на кости, но вы должны думать о своих центрированных переменных, а не об исходных переменных. Скажем, средняя сила мышц в группе была 30 KG. И вы хотите оценить костную массу мальчика (WEAKBOY), который выступал, 20 KGи другого, который выполнял 40KG(STRONGBOY). Центрированные значения WEAKBOY будут (СРЕДНЕГО ЗНАЧЕНИЯ ГРУППЫ - ИНДИВИДУАЛЬНОЕ ЗНАЧЕНИЕ; 30 - 20 = 10), а для STRONGBOY будет -10. Применяя эти значения к уравнению:

WEAKBOY Масса кости = 0,902 - 0 - (0,023 * 10) + .... = 0,672

STRONGBOY Масса кости = 0,902 - (0,023 * (- 10)) + ... = 1,132

Как видите, у STRONGBOY действительно была более крепкая кость. Если вы центрировали свои переменные в обратном направлении: (ИНДИВИДУАЛЬНО - ОЗНАЧАЕТ), все коэффициенты будут одинаковыми, но символы будут разными. Это потому, что при применении центрированной переменной WEAKBOY будет (-10), а STRONGBOY будет (+10). Поэтому окончательные результаты будут точно такими же.

Все это имеет смысл, как только вы это понимаете.

Надеюсь, пример достаточно ясен.

— Алекс Гомес
источник

Эта ошибка не объясняет изменения в p-значениях. Кстати, ваш вариант (1) не центрируется, потому что он также включает умножение значений на константу. (Константа -1.)

— whuber