Что можно сказать о моделях по данным наблюдений при отсутствии приборов?


10

В прошлом я задавал мне ряд вопросов, касающихся опубликованных работ в ряде областей, где регрессии (и связанные с ними модели, такие как панельные модели или GLM) используются в данных наблюдений (то есть данных, не полученных контролируемым экспериментом). во многих случаях - но не всегда - данные наблюдаются с течением времени), но там, где не делается попытка ввести инструментальные переменные.

В ответ я высказал ряд критических замечаний (таких как описание проблем с предвзятостью, когда важные переменные могут отсутствовать), но, поскольку другие люди здесь, несомненно, будут гораздо более осведомлены в этой теме, чем я, я решил спросить:

  1. Каковы основные проблемы / последствия попыток прийти к выводам об отношениях (особенно, но не ограничиваясь причинно-следственными выводами) в таких ситуациях?

  2. Можно ли сделать что-нибудь полезное с исследованиями, которые подходят к таким моделям в отсутствие инструментов?

  3. Каковы некоторые хорошие ссылки (книги или статьи) на проблемы с таким моделированием (предпочтительно с четкой нетехнической мотивацией последствий, поскольку обычно люди, которые спрашивают, имеют различное происхождение, некоторые без особой статистики), на которые люди могут ссылаться при критике бумага? Обсуждение мер предосторожности / проблем с приборами также было бы полезно.

(Основные ссылки на инструментальных переменных здесь , хотя , если у вас есть , чтобы добавить там, это было бы полезно тоже.)

Указатели на хорошие практические примеры поиска и использования инструментов были бы бонусом, но не являются центральными в этом вопросе.

[Я, вероятно, укажу другим на любые хорошие ответы здесь, когда такие вопросы приходят ко мне. Я могу добавить один или два примера по мере их получения.]

Ответы:


8

Таким образом, подавляющее большинство моей области (хотя не та, в которой я работаю в большинстве) занимается именно этим - подгонкой моделей типа GLM к данным наблюдений. По большей части инструментальные переменные являются редкостью, либо из-за недостаточного знакомства с техникой, либо, что важно, из-за отсутствия хорошего инструмента. Чтобы ответить на ваши вопросы по порядку:

  1. Основной проблемой, конечно, является своего рода остаточное смешение ненаблюдаемой переменной, которая связана как с воздействием, так и с результатом, представляющим интерес. Если говорить простым языком, ваш ответ может быть неправильным, но вы не обязательно знаете, как и почему. Решения, принятые по этой информации (например, следует ли использовать конкретную обработку, опасна ли вещь X в окружающей среде и т. Д.), Являются решениями, принятыми с использованием неверной информации.

  2. Я бы сказал, что ответ на этот вопрос - «да», потому что, по большей части, эти исследования пытаются найти что-то, что не обязательно является хорошим инструментом или где рандомизация невозможна. Так что, когда дело доходит до этого, альтернатива «Просто угадай». Эти модели являются, если не сказать больше, формализацией наших мыслей и серьезной попыткой приблизиться к ответу, и с ними легче бороться.

Например, вы можете спросить, насколько серьезным должно быть отклонение, чтобы качественно изменить ваш ответ (например, «Да, Х вредно для вас ...»), и оценить, считаете ли вы, что это разумно, есть неизвестный фактор этой силы скрывается за пределами ваших данных.

Например, открытие того, что ВПЧ-инфекция чрезвычайно сильно связана с раком шейки матки, является важным открытием, и сила неизмеряемого фактора, который мог бы сместить, что весь путь к нулю, должен быть ошеломительно сильным.

Кроме того, следует отметить, что инструмент не исправляет это - он работает только при отсутствии некоторых неизмеренных ассоциаций, и даже рандомизированные исследования страдают от проблем (дифференциальный отсев между лечением и контролем, любое изменение поведения после рандомизации, обобщение до фактического целевой аудитории), которые также немного затушевываются.

  1. Ротман, Гренландия и Лэш написали последнее издание « Современной эпидемиологии», которое, по сути, представляет собой книгу, посвященную попыткам сделать это наилучшим из возможных способов.

8

В отличие от точки зрения эпидемиолога, представленной Фомите, инструментальные переменные являются важным инструментарием в экономике, который преподается довольно рано. Причина этого заключается в том, что в настоящее время огромное внимание уделяется попыткам ответить на причинно-следственные вопросы в экономических исследованиях, которые достигают такой степени, что простые корреляции даже рассматриваются как неинтересные. Основным ограничением является то, что экономика является областью, в которой по своей природе сложно проводить рандомизированные эксперименты. Если я хочу знать, как ранняя родительская смерть влияет на долгосрочные образовательные результаты ребенка, большинство людей будут возражать против этого путем рандомизированного контроля - и это правильно. В этом раздаточном материале из курса Массачусетского технологического института на странице 3-5 описываются другие проблемы, связанные с экспериментами.

Чтобы обратиться к каждой точке по очереди:

  1. В зависимости от вопроса, на который необходимо ответить, это не просто пропущенные переменные, которые могут сделать недействительным анализ данных наблюдений без использования неэкспериментальных методов. Проблемы выбора, ошибка измерения, обратная причинность или одновременность могут быть одинаково важны. Основная проблема заключается в том, что аналитик данных должен знать об ограничениях этого параметра. Это относится главным образом к экономическому сценарию, потому что в академическом сценарии это может быть обнаружено быстро. Иногда я вижу рыночных аналитиков, которые хотят оценить эластичность цены, чтобы сообщить клиенту (например, насколько уменьшается спрос, если мы повышаем цены наx%), поэтому они оценивают уравнение спроса и полностью забывают или игнорируют тот факт, что спрос и предложение определяются одновременно, и что одно влияет на другое. Таким образом, последствия зависят в большей степени от осведомленности исследователя / аналитика данных относительно ограничений данных, а не самих данных, но в результате последствия могут варьироваться от чего-то тривиального до степени, когда они негативно влияют на жизнь людей.
  2. Отображение корреляции иногда может быть полезным, просто оно действительно зависит от вопроса. При поиске причинного эффекта также достаточно, если у вас есть естественный эксперимент. Данные переписи в Чили могут быть наблюдательными, но если вы хотите знать, как последнее землетрясение повлияло на уровень образования (где землетрясения могут быть экзогенными), то и данные наблюдений хороши для ответа на причинный вопрос.
    Также можно в определенной степени оценить эндогенность без инструментов (см. Стр. 9 в раздаточном материале выше, «Оценка степени смещения опущенных переменных»). Для бинарного не экспериментального леченияDiВы можете вычислить эффект этого лечения, сделать то же самое для ненаблюдаемых и спросить, насколько велик должен быть сдвиг ненаблюдаемых, чтобы объяснить наблюдаемый эффект лечения. Если ненаблюдаемый сдвиг должен быть очень большим, тогда мы можем быть немного более доверчивыми к нашим выводам. Ссылка для этого - Altonji, Elder and Taber (2000) .
  3. Вероятно, любой прикладной экономист порекомендовал бы Angrist and Pischke (2009) "Mostly Harmless Econometrics". Несмотря на то, что эта книга в основном предназначена для аспирантов и исследователей, можно пропустить ее части по математике и просто получить интуицию, которая также хорошо объясняется. Сначала они вводят идею экспериментальной установки, затем стремятся к МНК и ее ограничениям в отношении эндогенности из-за пропущенных переменных, одновременности, выбора и т. Д., А затем подробно обсуждают инструментальные переменные с большим количеством примеров из прикладной литературы. Они также обсуждают проблемы с инструментальными переменными, такими как слабые инструменты или использование слишком многих из них. Ангрист и Крюгер (2001) также предоставьте нетехнический обзор инструментальных переменных и потенциальных ловушек, и у них также есть таблица, которая суммирует несколько исследований и их инструменты.

Возможно, все это было намного дольше, чем должен быть типичный ответ, но вопрос очень широкий. Я просто хотел бы подчеркнуть, что инструментальные переменные (которые часто трудно найти) - не единственная пуля в нашем кармане. Существуют и другие неэкспериментальные методы выявления причинно-следственных эффектов из данных наблюдений, такие как разность различий, схемы разрыва регрессии, сопоставление или регрессия с фиксированными эффектами (если наши определяющие факторы не зависят от времени). Все это обсуждается в Angrist and Pischke (2009) и в раздаточном материале, о котором говорится в начале.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.