У меня есть вопрос о выборе модели и производительности модели в логистической регрессии. У меня есть три модели, основанные на трех разных гипотезах. Первые две модели (назовем их z и x) имеют только одну объясняющую переменную в каждой модели, а третья (назовем ее w) является более сложной. Я использую AIC для выбора переменной для w-модели, а затем AIC для сравнения, какая из трех моделей лучше всего объясняет зависимую переменную. Я обнаружил, что модель w имеет самый низкий AIC, и теперь хочу сделать некоторую статистику производительности для этой модели, чтобы получить представление о прогнозирующей способности модели. Поскольку все, что я знаю, это то, что эта модель лучше, чем две другие, но не насколько она хороша.
Поскольку я использовал все данные для изучения модели (чтобы можно было сравнить все три модели), как мне поступить с производительностью модели? Исходя из того, что я понял, я не могу просто выполнить перекрестную проверку в k-кратном размере для окончательной модели, полученной при выборе модели с использованием AIC, но нужно начинать с самого начала со всеми включенными пояснительными переменными, это правильно? Я бы подумал, что это последняя модель, которую я выбрал для AIC, и я хочу знать, насколько хорошо она работает, но я понимаю, что я тренировался на всех данных, поэтому модель может быть предвзятой. Так что, если мне нужно начать с начала со всеми поясняющими переменными во всех сгибах, я получу разные конечные модели для некоторых сгибов, могу ли я просто выбрать модель из сгиба, которая дала наилучшую предсказательную силу, и применить ее ко всему набору данных для сравнения AIC с двумя другими моделями (z и x)? Или как это работает?
Вторая часть моего вопроса - это основной вопрос о чрезмерной параметризации. У меня 156 точек данных, 52 - 1, остальные - 0. У меня есть 14 объяснительных переменных для выбора для модели w, я понимаю, что не могу включить все из-за чрезмерной параметризации, я читал, что вы должны использовать только 10% группы зависимой переменной с наименьшим количеством наблюдений, которые только было бы 5 для меня. Я пытаюсь ответить на вопрос по экологии, можно ли выбрать начальные переменные, которые, я думаю, лучше всего объясняют зависимость, просто исходя из экологии? Или как выбрать начальные объяснительные переменные? Не чувствует себя правильным, чтобы полностью исключить некоторые переменные.
Итак, у меня действительно есть три вопроса:
- Можно ли проверить производительность на модели, обученной на полном наборе данных с перекрестной проверкой?
- Если нет, то как выбрать окончательную модель при перекрестной проверке?
- Как выбрать начальные переменные, чтобы я мог переопределить параметры?
Извините за мои грязные вопросы и мое невежество. Я знаю, что подобные вопросы задавались, но все еще чувствую себя немного смущенным. Ценю любые мысли и предложения.