У меня есть набор данных с 8000 кластеров и 4 миллиона наблюдений. К сожалению, мое статистическое программное обеспечение, Stata, работает довольно медленно при использовании функции панельных данных для логистической регрессии: xtlogit
даже с 10% -ной выборкой.
Однако при использовании непанельной logit
функции результаты появляются гораздо раньше. Поэтому я могу извлечь выгоду из использования logit
измененных данных, которые учитывают фиксированные эффекты.
Я полагаю, что эта процедура придумана как «процедура фиксированных эффектов Мундлака» (Мундлак, Y. 1978. Объединение данных временных рядов и сечений. Эконометрика, 46 (1), 69-85.)
Я нашел интуитивное объяснение этой процедуры в статье Antonakis J., Bendahan S., Jacquart P. & Lalive R. (2010). О предъявлении причинных претензий: обзор и рекомендации. Руководство Ежеквартально, 21 (6). 1086-1120. Я цитирую:
Один из способов обойти проблему пропущенных фиксированных эффектов и по-прежнему включать переменные уровня 2 - это включить в расчетную модель кластерные средние всех ковариат уровня 1 (Mundlak, 1978). Среднее значение кластера может быть включено в качестве регрессоров или вычтено (то есть, среднее значение кластера) из ковариаты уровня 1. Средство кластера является инвариантным внутри кластера (и варьируется между кластерами) и позволяет согласованно оценивать параметры уровня 1 так же, как если бы фиксированные эффекты были включены (см. Rabe-Hesketh & Skrondal, 2008).
Поэтому центрирование по кластеру кажется идеальным и практичным для решения моей вычислительной задачи. Тем не менее, эти статьи, похоже, ориентированы на линейную регрессию (OLS).
Применим ли этот метод центрирования по кластеру для «репликации» бинарных логистических регрессий с фиксированными эффектами?
Более технический вопрос, который должен привести к тому же самому ответу: будет ли xtlogit depvar indepvars, fe
с набором данных A равен logit depvar indepvars
с набором данных B, когда набор данных B является среднецентрированной версией набора данных A?
Еще одна трудность, с которой я столкнулся при таком центрировании кластеров, заключается в том, как справиться с манекенами. Поскольку манекены имеют значение 0 или 1, идентичны ли они при регрессии случайных и фиксированных эффектов? Разве они не должны быть «центрированы»?