Где общая дисперсия между всеми IV в линейном уравнении множественной регрессии?


10

В линейном уравнении множественной регрессии, если веса бета отражают вклад каждой отдельной независимой переменной сверх вклада всех других IV, где в уравнении регрессии дисперсия, общая для всех IV, которые предсказывают DV?

Например, если диаграмма Венна, показанная ниже (и взятая из страницы « About» резюме здесь: https://stats.stackexchange.com/about ), была помечена как 3 IV и 1 DV, то где будет указана область со звездочкой в уравнение множественной регрессии?

введите описание изображения здесь


4
Я не вижу необходимости в понижении голосов здесь. Я думаю, что этот вопрос касается того, что происходит в множественной регрессии на фундаментальном уровне, и дает возможность объяснить кое-что о МР, которое иначе никогда бы не обсуждалось.
gung - Восстановить Монику

Ответы:


8

WikiDiggForumBlogWiki отвечает за тебя.

Wiki, но на рисунке также отображаются отклонения в предикторах. Есть несколько вещей, чтобы заметить о нашей фигуре. Во-первых, каждая переменная имеет одинаковую дисперсию - все они имеют одинаковый размер (хотя не все так буквально используют диаграммы Венна). Кроме того, существует одинаковое количество совпадений и т. Д. И т. Д. Более важная вещь, на которую следует обратить внимание, заключается в том, что между переменными предикторов существует значительное совпадение. Это означает, что они взаимосвязаны. Эта ситуация очень распространена при работе со вторичными (т.е. архивными) данными, наблюдательными исследованиями или сценариями прогнозирования в реальном мире. С другой стороны, если бы это был спроектированный эксперимент, это, вероятно, означало бы плохой дизайн или исполнение. Чтобы продолжить этот пример немного дольше, мы можем видеть, что наша способность к прогнозированию будет умеренной; большая часть изменчивости вWikiR2.35DiggBlogForumWiki

Теперь, после подбора модели с несколькими предикторами, люди часто хотят протестировать эти предикторы, чтобы увидеть, связаны ли они с переменной отклика (хотя не ясно, насколько это важно, поскольку люди, кажется, полагают, что это так). Наша проблема заключается в том, что для проверки этих предикторов мы должны разделить сумму квадратов , и поскольку наши предикторы коррелированы, существуют SS, которые можно отнести к более чем одному предиктору. На самом деле, в отмеченной звездочкой области СС можно отнести к любому из трех предикторов. Это означает, что не существует уникального раздела SS и, следовательно, нет уникального теста. Как эта проблема решается, зависит от типа SS, который использует исследователь и других суждений, сделанных исследователем . Так как многие программные приложения возвращают SS ​​типа III по умолчанию, многие люди выбрасывают информацию, содержащуюся в перекрывающихся областях, даже не подозревая, что совершили суждение . Я объясняю эти проблемы, различные типы СС, и вдаваться в некоторые детали здесь .

Вопрос, как указано, конкретно задает вопрос о том, где все это проявляется в уравнении бета / регрессии. Ответ в том, что это не так. Некоторая информация об этом содержится в моем ответе здесь (хотя вам придется читать между строк немного).


Привет Гунг, Спасибо за ваше сообщение. Это очень интересно и открыло мне глаза в некоторых областях. Однако у меня возникают проблемы с чтением между строками публикации, на которую вы ссылаетесь. Итак, мой вопрос остается: в линейном уравнении множественной регрессии, если веса бета отражают вклад каждой отдельной независимой переменной сверх вклада всех других IV, где в уравнении регрессии - дисперсия, общая для всех IV, которые предсказывает DV?
Джоэл В.

WikiDiggForum
gung - Восстановить Монику

Если «перекрытие проявляется в первом, а не во втором», как уравнение регрессии может отражать общую дисперсию? Если бета-версии указывают вклад каждого IV, когда эффекты всех других IV статистически удалены, какая часть формулы регрессии отражает предсказательную силу удаленного общего отклонения? Или как уравнение регрессии может показать, что произойдет с предсказанным Y, если вы увеличите один из IV на 1, если перекрытие не отражено в бета-версиях? Третий вопрос: при MR-анализе данных, лежащих в основе диаграммы Венна, будет ли Forum бета = 0?
Джоэл В.

βF=0

1
@MarkWhite, ответ ученика в основном нормальный. Утверждение, что когда X1 и X2 идеально коррелированы, их бета-версии наполовину неверны; когда r = 1, модель не может быть идентифицирована (см. здесь ). По мере приближения r к 1 предполагаемые бета-версии будут зависеть от отношений в данных выборки и могут широко варьироваться от выборки к выборке.
gung - Восстановить Монику

5

Питер Кеннеди имеет хорошее описание диаграмм Баллентина / Венна для регрессии в своей книге и статье JSE , включая случаи, когда они могут ввести вас в заблуждение.

R2


R2


Используется ли помеченная область для расчета предсказанного значения y? Если да, то где в формуле предсказания помеченная область способствует предсказанному y? Другими словами, какой термин или термины в формуле предсказания отражают звездную область?
Джоэл В.

3

Я понимаю, что это (очень) устаревшая ветка, но поскольку один из моих коллег задал мне этот же самый вопрос на этой неделе и не нашел в Интернете ничего, на что я мог бы указать ему, я решил добавить свои два цента "для потомков" Вот. Я не уверен, что ответы, предоставленные на сегодняшний день, отвечают на вопрос ОП.

Я собираюсь упростить задачу, включив в нее только две независимые переменные; очень просто расширить его до более чем двух. Рассмотрим следующий сценарий: две независимые переменные (X1 и X2), зависимая переменная (Y), 1000 наблюдений, две независимые переменные сильно коррелируют друг с другом (r = .99), и каждая независимая переменная коррелируется с зависимой переменная (r = .60). Без потери общности стандартизируйте все переменные со средним значением нуля и стандартным отклонением, равным единице, поэтому член перехвата будет равен нулю в каждой из регрессий.

Выполнение простой линейной регрессии Y на X1 приведет к r-квадрату .36 и значению b1 0,6. Точно так же, выполнение простой линейной регрессии Y на X2 даст r-квадрат 0,66 и значение b1 0,6.

Выполнение множественной регрессии Y на X1 и X2 приведет к получению r-квадрата всего на крошечный бит выше, чем .36, и оба b1 и b2 принимают значение 0,3. Таким образом, общее изменение в Y зафиксировано в ОБА b1 и b2 (в равной степени).

Я думаю, что OP, возможно, сделал ложное (но вполне понятное) предположение: а именно, что, когда X1 и X2 становятся все ближе и ближе к идеальной корреляции, их значения b в уравнении множественной регрессии становятся все ближе и ближе к нулю. Это не относится к делу. Фактически, когда X1 и X2 становятся все ближе и ближе к идеальной корреляции, их значения b в множественной регрессии становятся все ближе и ближе к ПОЛОВИНЕ значения b в простой линейной регрессии любого из них. Тем не менее, когда X1 и X2 становятся все ближе и ближе к идеальной корреляции, СТАНДАРТНАЯ ОШИБКА b1 и b2 перемещается все ближе и ближе к бесконечности, поэтому значения t сходятся к нулю. Таким образом, значения t будут сходиться к нулю (т. Е. Нет УНИКАЛЬНОЙ линейной зависимости между X1 и Y или X2 и Y),

Таким образом, ответ на вопрос OP заключается в том, что, поскольку корреляция между X1 и X2 приближается к единице, КАЖДЫЙ из коэффициентов частичного наклона приближается, внося одинаковый вклад в предсказание значения Y, даже если ни одна независимая переменная не предлагает какого-либо УНИКАЛЬНОГО объяснения зависимой переменная.

Если вы хотите проверить это эмпирически, создайте сфабрикованный набор данных (... я использовал макрос SAS с именем Corr2Data.sas ...), который имеет характеристики, описанные выше. Проверьте значения b, стандартные ошибки и t-значения: вы обнаружите, что они в точности соответствуют описанным здесь.

HTH // Фил


1
Это фантастическое объяснение, спасибо. Я попытался смоделировать различные ситуации в R и пришел к выводу, что невозможно избавиться от общей изменчивости, если n слишком велико или если корреляция между выходными данными (Y) и общей компонентной сетью (X1 и X2 ) слишком высока. Но почему значения t отражают что-то, что не является уникальным вкладом X1 и X2, для начала? Если t-значения регрессии отражают уникальный вклад предикторов, мы не должны видеть, как общая вариабельность вообще влияет на t-значения, но мы это делаем. Это почему?
Галит
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.