Применяется ли процедура фиксированных эффектов Мундлака для логистической регрессии с использованием макетов?


12

У меня есть набор данных с 8000 кластеров и 4 миллиона наблюдений. К сожалению, мое статистическое программное обеспечение, Stata, работает довольно медленно при использовании функции панельных данных для логистической регрессии: xtlogitдаже с 10% -ной выборкой.

Однако при использовании непанельной logitфункции результаты появляются гораздо раньше. Поэтому я могу извлечь выгоду из использования logitизмененных данных, которые учитывают фиксированные эффекты.

Я полагаю, что эта процедура придумана как «процедура фиксированных эффектов Мундлака» (Мундлак, Y. 1978. Объединение данных временных рядов и сечений. Эконометрика, 46 (1), 69-85.)

Я нашел интуитивное объяснение этой процедуры в статье Antonakis J., Bendahan S., Jacquart P. & Lalive R. (2010). О предъявлении причинных претензий: обзор и рекомендации. Руководство Ежеквартально, 21 (6). 1086-1120. Я цитирую:

Один из способов обойти проблему пропущенных фиксированных эффектов и по-прежнему включать переменные уровня 2 - это включить в расчетную модель кластерные средние всех ковариат уровня 1 (Mundlak, 1978). Среднее значение кластера может быть включено в качестве регрессоров или вычтено (то есть, среднее значение кластера) из ковариаты уровня 1. Средство кластера является инвариантным внутри кластера (и варьируется между кластерами) и позволяет согласованно оценивать параметры уровня 1 так же, как если бы фиксированные эффекты были включены (см. Rabe-Hesketh & Skrondal, 2008).

Поэтому центрирование по кластеру кажется идеальным и практичным для решения моей вычислительной задачи. Тем не менее, эти статьи, похоже, ориентированы на линейную регрессию (OLS).

Применим ли этот метод центрирования по кластеру для «репликации» бинарных логистических регрессий с фиксированными эффектами?

Более технический вопрос, который должен привести к тому же самому ответу: будет ли xtlogit depvar indepvars, feс набором данных A равен logit depvar indepvarsс набором данных B, когда набор данных B является среднецентрированной версией набора данных A?

Еще одна трудность, с которой я столкнулся при таком центрировании кластеров, заключается в том, как справиться с манекенами. Поскольку манекены имеют значение 0 или 1, идентичны ли они при регрессии случайных и фиксированных эффектов? Разве они не должны быть «центрированы»?

Ответы:


9

Первое различие или внутри преобразований, таких как уклонение, недоступно в моделях, таких как logit, потому что в случае нелинейных моделей такие приемы не удаляют ненаблюдаемые фиксированные эффекты. Даже если бы у вас был меньший набор данных, в который было бы возможно включить N-1 отдельных манекенов для прямой оценки фиксированных эффектов, это привело бы к смещенным оценкам, если измерение времени ваших данных не велико. Следовательно, устранение фиксированных эффектов в панели логита не следует ни разнице, ни унижению, а возможно только благодаря функциональной форме логита. Если вас интересуют подробности, вы можете взглянуть на эти заметки Седербома на стр. 30 (объяснение причин, по которым уклонение / первое различие в logit / probit не помогает) и на странице 42 (введение в панель оценки logit).

Другая проблема заключается в том, что xtlogitмодели панельных логитов в целом не оценивают непосредственно фиксированные эффекты, которые необходимы для расчета предельных эффектов. Без них будет очень неудобно интерпретировать ваши коэффициенты, которые могут разочаровать после нескольких часов работы модели.

С таким большим набором данных и ранее упомянутыми концептуальными трудностями логита панели FE я бы придерживался линейной вероятностной модели. Я надеюсь, что этот ответ не разочарует вас, но есть много веских причин для того, чтобы давать такие советы: LPM намного быстрее, коэффициенты можно интерпретировать сразу (это особенно верно, если у вас есть эффекты взаимодействия в вашей модели, потому что интерпретация их коэффициенты в нелинейных моделях изменяются!), фиксированные эффекты легко контролируются, и вы можете откорректировать стандартные ошибки для автокорреляции и кластеров без увеличения времени оценки без причины. Надеюсь, это поможет.


1
Это не решение, но это ответ. Спасибо :)
Том

1
Небольшое замечание: p20 из этих слайдов соответствует вашему случаю, но модель «коррелированных случайных эффектов» с поправкой Mundlak описана на p47 и, по-видимому, не содержит таких предостережений.
conjugateprior

1

Я полагаю, что условный логит («clogit» в Stata), это альтернативный оценщик панели логита с фиксированным эффектом.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf


5
Добро пожаловать на сайт! Я думаю, что это неприемлемый ответ, поскольку на самом деле вопрос заключается в следующем: как избежать условной (фиксированной) логистической регрессии с помощью модифицированной логистической регрессии в поперечном сечении с целью ускорения оценки. Как ваша ссылка указывает (в верхней части страницы 3), «мы можем использовать либо Stata«s clogitкоманда или xtlogit, feкоманда , чтобы сделать фиксированные эффекты логит анализ. Оба дают одинаковые результаты. (На самом деле, я считаю , на xtlogit, feсамом деле вызывает clogit.)»The ОП уже знал xtlogit, feпо предпоследнему абзацу.
Рандель

0

Эллисон обсуждали эту проблему в Allison, (2009), «Модели регрессии с фиксированными эффектами», с.32f.

Эллисон утверждает, что невозможно оценить безусловную модель с максимальной вероятностью. Это так, потому что модели становятся смещенными из-за «проблемы побочных параметров». Вместо этого он рекомендует использовать модель условного логита (Чемберлен, 1980). Это достигается путем обусловливания функции правдоподобия числом событий, наблюдаемых для каждого человека.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.