Я провожу анализ, основной задачей которого является понимание данных. Набор данных достаточно велик для перекрестной проверки (10 КБ), и предикторы включают как непрерывные, так и фиктивные переменные, а результат - непрерывный. Главная цель состояла в том, чтобы увидеть, имеет ли смысл исключать некоторые предикторы, чтобы облегчить интерпретацию модели.
Вопросов:
Мой вопрос «какие переменные объясняют результат и являются« достаточно сильной »частью этого объяснения». Но чтобы выбрать лямбда-параметр для лассо, вы используете перекрестную проверку, т.е. предиктивную достоверность в качестве критерия. Делая вывод, является ли предсказательная достоверность достаточно хорошим показателем для общего вопроса, который я задаю?
Скажем, LASSO сохранил только 3 из 8 предикторов. И теперь я спрашиваю себя: «Как они влияют на результат». Например, я нашел гендерную разницу. После усадки лассо коэффициент предполагает, что женщины набирают на 1 балл выше, чем мужчины. Но без усадки (т. Е. Фактического набора данных) они набирают 2,5 балла выше.
- Какой из них я бы выбрал своим «настоящим» гендерным эффектом? Если исходить только из прогнозирующей достоверности, это будет сокращенный коэффициент.
- Или в контексте скажем, что я пишу отчет для людей, плохо разбирающихся в статистике. Какой коэффициент я бы им сообщил?