Д я яPr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Dii
Чтобы получить более подробную информацию, определите следующие обозначения:
и ; относится к событию, которое в образце. Кроме того, предположим, что не зависит от для простоты. π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi
Вероятность для единицы в выборке равна
по закону повторного ожидания. Предположим, что в зависимости от состояния болезни и других ковариат , результат
не зависит от . В результате,
i Pr ( Y i = 1 ∣ X i , S i = 1 )Yя= 1я ДяХяУяSя Pr ( Y я = 1 | X я , S я = 1 )
Pr ( Yя= 1 ∣ Xя, Sя= 1 )знак равнознак равнознак равноE ( Yя∣ Xя, Sя= 1 )E { E ( Yя∣ Xя, Dя, Sя= 1 ) ∣ Xя, Sя= 1 }Pr ( Dя= 1 ∣ ся= 1 ) Pr ( Yя= 1∣ Xя,Dя= 1 , ся= 1 ) +Pr (Dя= 0 ∣ ся= 1 ) Pr (Yя= 1 ∣Xя,Dя= 0 , ся= 1 ) ,
DяИксяYяSяPr(D i =1∣S i =1)= π 1 p i 1Pr ( Yя= 1 ∣ Xя, Sя= 1 )знак равноPr ( Dя= 1 ∣ ся= 1 ) Pr ( Yя= 1 ∣ Xя, Dя= 1 ) +Pr ( Dя= 0 ∣ ся= 1 ) Pr ( Yя= 1 ∣ Xя, Dя= 0 ) .
Легко видеть, что
Здесь и соответствуют вашей схеме выборки. Таким образом,
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1Pr ( Dя= 1 ∣ ся= 1 ) = π1пя 1π1пя 1+ π0пя 0 и Pr ( Dя= 0 ∣ ся= 1 ) = π0пя 0π1пя 1+ π0пя 0,
пя 1пя 0Pr ( Yя= 1 ∣ Xя, Sя= 1 ) = π1пя 1π1пя 1+ π0пя 0Pr ( Yя= 1 ∣ Xя, Dя= 1 ) + π0пя 0π1пя 1+ π0пя 0Pr ( Yя= 1 ∣ Xя, Dя= 0 ) .
Если , мы имеем
и вы можете опустить проблему выбора образца. С другой стороны, если ,
в общем. В качестве частного случая рассмотрим модель logit,
Pr ( Yя= 1 ∣ Xя, Dя= 1 ) = Pr ( Yя= 1 ∣ Xя, Dя= 0 )Pr ( Yя= 1 ∣ Xя, Sя= 1 ) = Pr ( Yя= 1 ∣ Xя) ,
Pr ( Yя= 1 ∣ Xя, Dя= 1 ) ≠ Pr ( Yя= 1 ∣ Xя, Dя= 0 )Pr ( Yя= 1 ∣ Xя, Sя= 1 ) ≠ Pr ( Yя= 1 ∣ Xя)
Pr(Yi=1∣Xi,Di=1)=eX′iα1+eX′iα and Pr(Yi=1∣Xi,Di=0)=eX′iβ1+eX′iβ.
Даже когда и постоянны по , полученное распределение не сохранит логит. Что еще более важно, интерпретация параметров будет совершенно другой. Надеемся, что приведенные выше аргументы помогут немного прояснить вашу проблему.
pi1pi0i
Соблазн включить в качестве дополнительной объясняющей переменной и оценить модель на основе . Чтобы оправдать использование , нам нужно доказать, что , что эквивалентно условию, что является достаточной статистикой . Без дополнительной информации о вашем процессе отбора проб я не уверен, правда ли это. Давайте использовать абстрактные обозначения. Переменная наблюдаемости может рассматриваться как случайная функция от и других случайных величин, скажемDiPr(Yi∣Xi,Di)Pr(Yi∣Xi,Di)Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di)DiSiSiDi S i =S (Zi . Обозначим . Если
не зависит от условного для и , мы имеем
по определению независимости. Однако, если не зависит от после подготовки к и ,
интуитивно содержит некоторую соответствующую информацию о
, и в целом не ожидается, чтоSi=S(Di,Zi)ZiYiXiDiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)ZiYiXiDiZiYiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Таким образом, в случае «однако», незнание выбора образца может вводить в заблуждение для вывода. Я не очень знаком с литературой по отбору проб в эконометрике. Я бы порекомендовал главу 16 « Microeconometrics: methods and applications' by Cameron
and Trivedi (especially the Roy model in that chapter). Also G. S.
Maddala's classic book
Ограниченные зависимые и качественные переменные в эконометрике» - это систематическое рассмотрение вопросов, касающихся выбора выборки и дискретных результатов.