Ваш вопрос (плюс дополнительные комментарии в комментариях), по-видимому, больше всего интересует случай, когда у нас есть рандомизированное контролируемое испытание, когда исследователь случайным образом назначает одну или несколько объясняющих переменных, основываясь на некоторой схеме рандомизации. В этом контексте вы хотите знать, почему мы используем модель, которая рассматривает объясняющие переменные как известные константы, а не рассматривает их как случайные переменные из распределения выборки, навязанного рандомизацией. (Ваш вопрос шире, чем этот, но, похоже, это основной интерес к комментарию, поэтому я обращусь к нему.)
Причина, по которой мы обусловливаем объясняющие переменные в этом контексте, заключается в том, что в задаче регрессии для RCT мы по-прежнему заинтересованы в условном распределении ответной переменной с учетом предикторов . Действительно, в РКИ мы заинтересованы в определении причинного влияния объясняющей переменной Икс на переменную отклика Y , которую мы собираемся определить с помощью логического вывода об условном распределении (при условии соблюдения некоторых протоколов для предотвращения смешения). Рандомизация вводится для того, чтобы нарушить зависимость между объясняющей переменной Икс и любыми потенциальными переменными (т. Е. Для предотвращения задних связей). †† Однако объектом вывода в задаче по-прежнему является условное распределение переменной ответа с учетом объясняющих переменных. Таким образом, все еще имеет смысл оценивать параметры в этом условном распределении, используя методы оценки, которые обладают хорошими свойствами для вывода условного распределения .
Это нормальный случай, который применяется для РКИ с использованием методов регрессии. Конечно, в некоторых ситуациях у нас есть другие интересы, и мы действительно можем включить неопределенность в отношении объясняющих переменных. Включение неопределенности в объясняющие переменные обычно происходит в двух случаях:
(1) Когда мы переходим за пределы регрессионного анализа и к многомерному анализу, нас интересует совместное распределение объясняющих и ответных переменных, а не просто условное распределение последних с учетом первого. Могут быть приложения, в которых это нас интересует, и поэтому мы бы выходили за рамки регрессионного анализа и включали информацию о распределении объясняющих переменных.
(2) В некоторых регрессионных приложениях наш интерес представляет условное распределение переменной отклика, условно лежащей в основе ненаблюдаемой объясняющей переменной, где мы предполагаем, что наблюдаемые объяснительные переменные были подвержены ошибке («ошибки в переменных»). В этом случае мы включаем неопределенность через «ошибки в переменных». Причина этого заключается в том, что наш интерес в этих случаях заключается в условном распределении, обусловленном ненаблюдаемой базовой переменной .
Обратите внимание, что оба эти случая математически более сложны, чем регрессионный анализ, поэтому, если мы можем избежать использования регрессионного анализа, это, как правило, предпочтительнее. В любом случае, в большинстве приложений регрессионного анализа цель состоит в том, чтобы сделать вывод об условном распределении ответа, учитывая наблюдаемые объясняющие переменные, поэтому эти обобщения становятся ненужными.
† Обратите внимание, что рандомизация отделяет причинные эффекты от смешанных переменных до рандомизированной переменной, но она не разделяет причинные эффекты от случайной переменной до смешанных переменных, а затем и на ответ. Это означает, что могут потребоваться другие протоколы (например, плацебо, ослепление и т. Д.), Чтобы полностью разорвать все закулисные ассоциации в причинно-следственном анализе.