Моя ситуация:
- небольшой размер выборки: 116
- двоичная переменная результата
- длинный список объясняющих переменных: 44
- объясняющие переменные не исходили из головы; их выбор был основан на литературе.
- В большинстве случаев в выборке и в большинстве переменных отсутствуют значения.
Подход к выбору функции выбран: LASSO
Пакет R glmnet не позволит мне запустить процедуру glmnet, по-видимому, из-за наличия пропущенных значений в моем наборе данных. Кажется, существуют различные методы для обработки пропущенных данных, поэтому я хотел бы знать:
- Налагает ли LASSO какое-либо ограничение в отношении метода вменения, который я могу использовать?
- Что будет лучшим выбором для метода вменения? В идеале мне нужен метод, который я мог бы запустить на SPSS (предпочтительно) или R.
ОБНОВЛЕНИЕ 1: Из некоторых ответов ниже стало ясно, что я имею дело с более основными вопросами, прежде чем рассматривать методы вменения. Я хотел бы добавить сюда новые вопросы по этому поводу. В ответе предлагается кодирование как постоянное значение и создание новой переменной, чтобы иметь дело с «неприменимыми» значениями и использованием группы lasso:
- Не могли бы вы сказать, что если я буду использовать группу LASSO, я смогу использовать подход, предложенный для непрерывных предикторов, а также для категориальных предикторов? Если это так, я предполагаю, что это будет эквивалентно созданию новой категории - я опасаюсь, что это может привести к предвзятости.
- Кто-нибудь знает, поддерживает ли пакет glmnet R группу LASSO? Если нет, то кто-нибудь предложил бы другой, который делает это в сочетании с логистической регрессией? Несколько вариантов упоминания группы LASSO можно найти в репозитории CRAN, какие предложения наиболее подходят для моего случая? Может быть, SGL?
Это продолжение моего предыдущего вопроса ( Как выбрать подмножество переменных из моего первоначального длинного списка для выполнения анализа логистической регрессии? ).
OBS: я не статистика.