Почему модели «ошибка в X» не используются более широко?


11

При расчете стандартной ошибки коэффициента регрессии, мы не учитываем хаотичности в конструкции матрице . Например, в OLS мы вычисляем какИксвар(β^)вар((ИксTИкс)-1ИксTY)знак равноσ2(ИксTИкс)-1

Если рассматривались случайным образом , закон общей дисперсии будет, в некотором смысле, требует дополнительного вклада дисперсии , а также. т.е.ИксИкс

вар(β^)знак равновар(Е(β^|Икс))+Е(вар(β^|Икс)),

Что, если оценка OLS действительно беспристрастна, первый член исчезает, так как ожидание является константой. Второй термин фактически становится: .σ2сОУ(Икс)-1

  1. Если параметрическая модель для известна, почему бы нам не заменить фактической оценкой ковариации. Например, если является рандомизированным назначением лечения, должна ли биномиальная дисперсия быть более эффективной оценкой?ИксИксTИксИксЕ(Икс)(1-Е(Икс))

  2. Почему бы нам не рассмотреть возможность использования гибких непараметрических моделей для оценки возможных источников смещения в оценке OLS и надлежащего учета чувствительности к проекту (т. Е. Распределения ) в первом члене закона общей дисперсии ?Иксвар(Е(β^|Икс))


2
Почему математический закон «требует» чего-либо? Мы используем модель для сопоставления с данными для решения конкретных задач. Когда они должны понять или предсказать условный отклик на основе наблюдаемого или измеренного значения изменение будет иметь мало (если вообще что-либо) общего с вопросом существа - действительно, включение этого изменения в наши процедуры может показаться быть совершенно неправильным, вводящим в заблуждение или даже бессмысленным. Таким образом, ответ на ваш вопрос сводится к оценке частоты, с которой сталкиваются различные виды статистических проблем. XX,X
whuber

1
@whuber Мой фокус на вывод. Закон полной дисперсии, кажется, более соответствует частой интерпретации результатов исследования. Мы часто говорим о том, «если исследование было воспроизведено» ... без учета того факта, что распределение может отличаться, если исследование будет воспроизведено. Баланс пола может составлять 40% в одной выборке, но 60% в другой просто как случайное следствие того, как было проведено исследование. По иронии судьбы, бутстрап отражает это, но не генерирует какой-либо изменчивости в результате для конкретной комбинации ковариат. X
AdamO

2
Во-первых, многие исследования ставят под экспериментальный контроль, так что это даже не случайно. Во- вторых, наблюдательные исследования (где X является случайным) часто интересуют только умозаключения об условном распределении Y . Таким образом, сосредоточение на умозаключении не отличает одну ситуацию от другой. Когда полное (совместное) распределение представляет интерес, вы увидите, что многие люди прибегают к формам корреляционного анализа или различным многомерным процедурам. Не существует такого понятия, как «начальная загрузка», потому что в этой ситуации способ повторной выборки зависит как от ваших целей, так и от вашей модели. ИксИксY,
whuber

1
Контроль @whuber Experimental является рандомизированы в момент начала исследования. Как я уже говорил, это убедительный случай: скажем, рандомизацией является Бернулли. Зачем использовать эмпирическую оценку ? Используйте максимальное правдоподобие: cov ( X ) = E (cov(X)=XTX ? Вы правы насчет начальной загрузки, я имел в виду непараметрическую (безусловную) начальную загрузку, где «строки» данных выбираются с заменой. cov(X)=E(X)(1E(X))
AdamO

2
Вне особых, аномальных случаев, на самом деле не имеет значения, является ли случайным, что имеет значение, если есть ошибка измеренияX1 в . Если это так, методы OLS привели бы к смещенным и более низким оценкам оценки β 1 . В этом случае следует использовать ошибки в методах переменных. X1β1
gung - Восстановить Монику

Ответы:


8

Ваш вопрос (плюс дополнительные комментарии в комментариях), по-видимому, больше всего интересует случай, когда у нас есть рандомизированное контролируемое испытание, когда исследователь случайным образом назначает одну или несколько объясняющих переменных, основываясь на некоторой схеме рандомизации. В этом контексте вы хотите знать, почему мы используем модель, которая рассматривает объясняющие переменные как известные константы, а не рассматривает их как случайные переменные из распределения выборки, навязанного рандомизацией. (Ваш вопрос шире, чем этот, но, похоже, это основной интерес к комментарию, поэтому я обращусь к нему.)

Причина, по которой мы обусловливаем объясняющие переменные в этом контексте, заключается в том, что в задаче регрессии для RCT мы по-прежнему заинтересованы в условном распределении ответной переменной с учетом предикторов . Действительно, в РКИ мы заинтересованы в определении причинного влияния объясняющей переменной Икс на переменную отклика Y , которую мы собираемся определить с помощью логического вывода об условном распределении (при условии соблюдения некоторых протоколов для предотвращения смешения). Рандомизация вводится для того, чтобы нарушить зависимость между объясняющей переменной Икс и любыми потенциальными переменными (т. Е. Для предотвращения задних связей). Однако объектом вывода в задаче по-прежнему является условное распределение переменной ответа с учетом объясняющих переменных. Таким образом, все еще имеет смысл оценивать параметры в этом условном распределении, используя методы оценки, которые обладают хорошими свойствами для вывода условного распределения .

Это нормальный случай, который применяется для РКИ с использованием методов регрессии. Конечно, в некоторых ситуациях у нас есть другие интересы, и мы действительно можем включить неопределенность в отношении объясняющих переменных. Включение неопределенности в объясняющие переменные обычно происходит в двух случаях:

  • (1) Когда мы переходим за пределы регрессионного анализа и к многомерному анализу, нас интересует совместное распределение объясняющих и ответных переменных, а не просто условное распределение последних с учетом первого. Могут быть приложения, в которых это нас интересует, и поэтому мы бы выходили за рамки регрессионного анализа и включали информацию о распределении объясняющих переменных.

  • (2) В некоторых регрессионных приложениях наш интерес представляет условное распределение переменной отклика, условно лежащей в основе ненаблюдаемой объясняющей переменной, где мы предполагаем, что наблюдаемые объяснительные переменные были подвержены ошибке («ошибки в переменных»). В этом случае мы включаем неопределенность через «ошибки в переменных». Причина этого заключается в том, что наш интерес в этих случаях заключается в условном распределении, обусловленном ненаблюдаемой базовой переменной .

Обратите внимание, что оба эти случая математически более сложны, чем регрессионный анализ, поэтому, если мы можем избежать использования регрессионного анализа, это, как правило, предпочтительнее. В любом случае, в большинстве приложений регрессионного анализа цель состоит в том, чтобы сделать вывод об условном распределении ответа, учитывая наблюдаемые объясняющие переменные, поэтому эти обобщения становятся ненужными.


Обратите внимание, что рандомизация отделяет причинные эффекты от смешанных переменных до рандомизированной переменной, но она не разделяет причинные эффекты от случайной переменной до смешанных переменных, а затем и на ответ. Это означает, что могут потребоваться другие протоколы (например, плацебо, ослепление и т. Д.), Чтобы полностью разорвать все закулисные ассоциации в причинно-следственном анализе.


2
Хороший ответ. Я бы добавил, что AFAIK, если у вас есть гауссовские ошибки в переменных и гауссовские ошибки в ответе, чем работает нормальный метод регрессии, и это становится проблемой, только если вы a) наблюдали ответ без ошибки b) имели другое распределение ответов
Мартин Модрак

2

Название «ошибки в переменных» и содержание вопроса выглядят по-разному, поскольку спрашивает, почему мы не учитываем различия в X при моделировании условного отклика, то есть при выводе параметров регрессии. Эти две озабоченности кажутся мне ортогональными, поэтому здесь я отвечаю на содержание.

Я ответил на аналогичный вопрос раньше, чем разница между условием регрессоров и лечением их как фиксированных? так что здесь я скопирую часть моего ответа там:

(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψИксθзнак равно(β,σ2)(θ,ψ) являетсяΘ×Ψ , декартовым произведением, и эти два параметра не имеют ничего общего.

Это можно интерпретировать как факторизацию статистического эксперимента (или процесса генерации данных, DGP), первый Икс генерируется в соответствии с еψ(Икс) , а в качестве второго шага Y генерируется в соответствии с условной плотностью еθ(Y|Иксзнак равноИкс) . Обратите внимание, что первый шаг не использует никаких знаний о θ , которые входят только во второй шаг. Статистика Икс является вспомогательной для θ , см. Https://en.wikipedia.org/wiki/Ancillary_statistic .

θеψ(Икс)ИксθθИксзнак равноИкс

В разработанных экспериментах его предположение в основном будет справедливо, часто с данными наблюдений, нет. Вот некоторые примеры проблем: регрессия с запаздывающими ответами в качестве предикторов. Обусловливание предикторов в этом случае также будет зависеть от реакции! (Я добавлю больше примеров).

§4,3 .


θИксθИксθ ?

Этот аргумент разделения полезен также потому, что он указывает на случаи, когда он не может быть использован, например, регрессия с запаздывающими ответами в качестве предикторов.


1
ИксYθψ

Я не знаю о PLS, но постараюсь подумать об этом
kjetil b halvorsen

1
Хороший ответ! ...
Ричард Харди
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.