Я запускаю большую регрессию OLS, где все независимые переменные (около 400) являются фиктивными переменными. Если все они включены, то существует идеальная мультиколлинеарность (фиктивная переменная ловушка), поэтому я должен опустить одну из переменных перед запуском регрессии.
Мой первый вопрос: какая переменная должна быть опущена? Я читал, что лучше опустить переменную, которая присутствует во многих наблюдениях, а не переменную, которая присутствует только в нескольких (например, если почти все наблюдения являются «мужскими» или «женскими», а лишь некоторые из них «неизвестны»). ", пропустите" мужской "или" женский "). Это оправдано?
После запуска регрессии с пропущенной переменной я могу оценить значение коэффициента пропущенной переменной, потому что я знаю, что общее среднее значение всех моих независимых переменных должно быть 0. Поэтому я использую этот факт для смещения значений коэффициента для всех включенные переменные, и получите оценку для пропущенной переменной. Мой следующий вопрос: есть ли подобный метод, который можно использовать для оценки стандартной ошибки для значения коэффициента пропущенной переменной. Так как это, я должен повторно выполнить регрессию, опуская другую переменную (и включая переменную, которую я пропустил в первой регрессии), чтобы получить стандартную оценку ошибки для коэффициента первоначально опущенной переменной.
Наконец, я замечаю, что оценки коэффициентов, которые я получаю (после повторного центрирования вокруг нуля), немного изменяются в зависимости от того, какая переменная опущена. Теоретически, было бы лучше запустить несколько регрессий, в каждой из которых не указывается другая переменная, а затем усреднить оценки коэффициентов по всем регрессиям?