Проблемы с фиктивными переменными


10

Я запускаю большую регрессию OLS, где все независимые переменные (около 400) являются фиктивными переменными. Если все они включены, то существует идеальная мультиколлинеарность (фиктивная переменная ловушка), поэтому я должен опустить одну из переменных перед запуском регрессии.

Мой первый вопрос: какая переменная должна быть опущена? Я читал, что лучше опустить переменную, которая присутствует во многих наблюдениях, а не переменную, которая присутствует только в нескольких (например, если почти все наблюдения являются «мужскими» или «женскими», а лишь некоторые из них «неизвестны»). ", пропустите" мужской "или" женский "). Это оправдано?

После запуска регрессии с пропущенной переменной я могу оценить значение коэффициента пропущенной переменной, потому что я знаю, что общее среднее значение всех моих независимых переменных должно быть 0. Поэтому я использую этот факт для смещения значений коэффициента для всех включенные переменные, и получите оценку для пропущенной переменной. Мой следующий вопрос: есть ли подобный метод, который можно использовать для оценки стандартной ошибки для значения коэффициента пропущенной переменной. Так как это, я должен повторно выполнить регрессию, опуская другую переменную (и включая переменную, которую я пропустил в первой регрессии), чтобы получить стандартную оценку ошибки для коэффициента первоначально опущенной переменной.

Наконец, я замечаю, что оценки коэффициентов, которые я получаю (после повторного центрирования вокруг нуля), немного изменяются в зависимости от того, какая переменная опущена. Теоретически, было бы лучше запустить несколько регрессий, в каждой из которых не указывается другая переменная, а затем усреднить оценки коэффициентов по всем регрессиям?


Не могли бы вы уточнить, что вы подразумеваете под «общим средним значением всех моих независимых переменных должно быть 0» и как вы это знаете?
остановка

В основном я хочу оценить все переменные относительно среднего (среднее значение всех переменных). Коэффициенты из регрессии относятся к пропущенной переменной. Поэтому, когда я вычитаю среднее значение всех коэффициентов (включая коэффициент пропущенной переменной, равный 0) из каждого значения коэффициента, скорректированные значения теперь будут в среднем равны 0, и каждое значение коэффициента можно рассматривать как расстояние от среднего.
Джеймс Дэвисон

Ответы:


8

Вы должны получать «одинаковые» оценки независимо от того, какую переменную вы пропускаете; то коэффициенты могут быть разными, но оценки конкретных величин или ожидания должны быть одинаковыми во всех моделях.

В простом случае пусть для мужчин и 0 для женщин. Тогда у нас есть модель: Теперь пусть для женщин. Тогда Ожидаемое значение для женщин равно а также . Для мужчин этоИксязнак равно1

Е[Yя|Икся]знак равноИксяЕ[Yя|Иксязнак равно1]+(1-Икся)Е[Yя|Иксязнак равно0]знак равноЕ[Yя|Иксязнак равно0]+[Е[Yя|Иксязнак равно1]-Е[Yя|Иксязнак равно0]]Иксязнак равноβ0+β1Икся,
Zязнак равно1
Е[Yя|Zя]знак равноZяЕ[Yя|Zязнак равно1]+(1-Zя)Е[Yя|Zязнак равно0]знак равноЕ[Yя|Zязнак равно0]+[Е[Yя|Zязнак равно1]-Е[Yя|Zязнак равно0]]Zязнак равноγ0+γ1Zя,
Yβ0γ0+γ1β0+β1и .γ0

Эти результаты показывают, как связаны коэффициенты из двух моделей. Например, . Аналогичное упражнение с использованием ваших данных должно показать, что «разные» коэффициенты, которые вы получаете, представляют собой просто суммы и различия друг от друга.β1знак равно-γ1


4

Джеймс, прежде всего, почему регрессионный анализ, а не ANOVA (есть много специалистов в этом виде анализа, которые могут вам помочь)? В плюсах для ANOVA, что все , что вы на самом деле заинтересованы в различии в средствах различных групп , описанных комбинациями фиктивных переменных (уникальные категории или профили). Что ж, если вы изучаете влияние каждой из категориальных переменных, которые вы включаете, вы также можете запустить регрессию.

Я думаю, что тип данных, которые вы здесь имеете, описан в смысле совместного анализа : многие атрибуты объекта (пол, возраст, образование и т. Д.) Имеют несколько категорий, поэтому вы пропускаете весь самый большой профиль, а не только одна фиктивная переменная. Обычной практикой является кодирование категорий в атрибуте следующим образом (эта ссылка может быть полезна, вы, вероятно, здесь не проводите совместный анализ, но кодирование аналогично): предположим, у вас есть категорий (три, как вы предложили, мужской, женский) (неизвестно), затем первые два кодируются, как обычно, вы включаете двух манекенов (мужской, женский), давая если мужской, если женский, иN(1,0)(0,1)(-1,-1)если неизвестно. Таким образом, результаты действительно будут размещены вокруг срока перехвата. Однако вы можете кодировать по-другому, но потеряете указанное преимущество интерпретации. Подводя итог, вы отбрасываете одну категорию из каждой категории и кодируете свои наблюдения описанным способом. Вы также включаете термин перехват.

Хорошо, если я пропущу самые большие категории профиля, мне кажется, что это хорошо, хотя и не так важно, по крайней мере, это не пусто, я думаю. Поскольку вы кодируете переменные особым образом, совокупная статистическая значимость включенных фиктивных переменных (как мужчин, так и женщин, может быть проверена с помощью F-теста) подразумевает значимость пропущенной.

Может случиться так, что результаты немного отличаются, но может быть, это неправильное кодирование, которое влияет на это?


Прошу прощения, если мое письмо не ясно, в Литве полночь.
Дмитрий Челов

Почему ваш неизвестный (-1, -1) вместо (0,0)?
Сиами

1

Не зная точного характера вашего анализа, рассматривали ли вы кодирование эффектов? Таким образом, каждая переменная будет представлять эффект этой черты / атрибута по отношению к общему среднему значению, а не к какой-то конкретной пропущенной категории. Я полагаю, что вам все еще не хватает коэффициента для одной из категорий / атрибутов - той, которой вы назначаете -1. Тем не менее, с таким количеством манекенов, я бы подумал, что большое среднее значение сделало бы более значимую группу сравнения, чем любая конкретная пропущенная категория.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.