Я просто задавался вопросом об одном и том же вопросе при анализе последних данных Национального обследования выписки из стационара . Несколько переменных имеют существенные пропущенные значения, такие как семейное положение и тип процедуры. Этот вопрос привлек мое внимание, потому что эти категории обнаруживали сильные (и существенные) эффекты в большинстве анализов логистической регрессии, которые я проводил.
Склонен удивляться, почемуотсутствует код Например, в случае семейного положения вполне вероятно, что непредоставление этой информации может быть связано с такими важными факторами, как социально-экономический статус или тип заболевания. В вашем случае высокого кровяного давления, мы должны спросить, почему значение не известно или отказано? Это может быть связано с практикой в учреждении (возможно, отражает слабые процедуры) или даже с отдельными лицами (например, религиозные убеждения). Эти характеристики в свою очередь могут быть связаны с диабетом. Поэтому представляется целесообразным продолжать, как вы, а не кодировать эти значения как отсутствующие (тем самым исключая их из анализа) или пытаясь вменять значения (что эффективно маскирует предоставляемую ими информацию и может искажать результаты). Это действительно не сложнее сделать: вам просто нужно убедиться, что эта переменная рассматривается как категориальная, и вы получите еще один коэффициент в выводе регрессии. Кроме того, я подозреваю, что наборы данных BRFSS достаточно велики, чтобы вам не приходилось беспокоиться о мощности.