Что статистическая модель может сказать о причинно-следственной связи? Какие соображения следует учитывать при создании причинного следствия из статистической модели?
Первое, что нужно прояснить, это то, что вы не можете сделать причинный вывод из чисто статистической модели. Ни одна статистическая модель не может ничего сказать о причинности без причинных предположений. То есть, чтобы сделать причинный вывод, вам нужна причинная модель .
Даже в чем-то, что считается золотым стандартом, например, в рандомизированных контрольных испытаниях (РКИ), вам необходимо сделать причинные предположения, чтобы продолжить. Позвольте мне прояснить это. Например, предположим, что - это процедура рандомизации, - интересующая обработка, а - интересующий результат. Предполагая идеальное РКИ, вы предполагаете следующее:ZXY
В этом случае поэтому все работает хорошо. Однако предположим, что у вас есть несовершенное соответствие полученного в проклятых связях между и . Тогда, теперь, ваш RCT выглядит так:P(Y|do(X))=P(Y|X)XY
Вы все еще можете сделать намерение лечить анализ. Но если вы хотите оценить реальный эффект от все уже не просто. Это инструментальная настройка переменной, и вы можете иметь возможность связать или даже указать идентификацию эффекта, если сделаете некоторые параметрические предположения .X
Это может стать еще сложнее. У вас могут быть проблемы с ошибкой измерения, субъекты могут отказаться от исследования или не следовать инструкциям, в том числе. Вам нужно будет сделать предположения о том, как эти вещи связаны с выводом. С «чисто» данными наблюдений это может быть более проблематично, потому что обычно исследователи не имеют четкого представления о процессе генерации данных.
Следовательно, чтобы сделать причинные выводы из моделей, вам нужно судить не только о его статистических предположениях, но, что наиболее важно, о его причинных предположениях. Вот некоторые распространенные угрозы для причинного анализа:
- Неполные / неточные данные
- Целевое причинное количество интереса недостаточно точно определено (какой причинный эффект вы хотите определить? Какова целевая группа?)
- Смущение (ненаблюдаемые нарушители)
- Смещение выбора (самоотбор, усеченные образцы)
- Ошибка измерения (которая может вызывать не только шум, но и смешивание)
- Неправильная спецификация (например, неправильная функциональная форма)
- Проблемы внешней достоверности (неправильный вывод на целевую группу)
Иногда утверждение об отсутствии этих проблем (или утверждение об их решении) может быть подкреплено дизайном самого исследования. Вот почему экспериментальные данные обычно более достоверны. Иногда, однако, люди отберут эти проблемы либо с помощью теории, либо для удобства. Если теория мягкая (как в социальных науках), будет труднее принять выводы за чистую монету.
Каждый раз, когда вы думаете, что есть предположение, которое не может быть подтверждено, вы должны оценить, насколько чувствительны выводы к вероятным нарушениям этих предположений - это обычно называется анализом чувствительности.