Это, вероятно, не очень хорошая вещь. Рассмотрение сначала всех отдельных ковариат, а затем построение модели с существенными значениями логически эквивалентно процедуре автоматического поиска. Хотя этот подход интуитивно понятен, выводы, сделанные из этой процедуры, недействительны (например, истинные значения p отличаются от тех, которые сообщаются программным обеспечением). Проблема увеличивается с увеличением размера исходного набора ковариат. Если вы все равно сделаете это (и, к сожалению, многие люди это делают), вы не сможете серьезно относиться к полученной модели. Вместо этого вы должны провести совершенно новое исследование, собирая независимую выборку и подбирая предыдущую модель, чтобы протестировать ее. Тем не менее, это требует много ресурсов, и более того, поскольку процесс имеет недостатки и предыдущая модель, вероятно, плохая,тратить много ресурсов.
Лучший способ - оценить модели, представляющие для вас интерес. Затем используйте информационный критерий, который наказывает за гибкость модели (например, AIC) для вынесения решения среди этих моделей. Для логистической регрессии AIC:
А яС= - 2 × ln( вероятность ) + 2 к
где - число ковариат, включенных в эту модель. Вы хотите модель с наименьшим значением для AIC, при прочих равных условиях. Однако это не всегда так просто; Будьте осторожны, когда несколько моделей имеют одинаковые значения для AIC, даже если одна из них может быть самой низкой. К
Я включил полную формулу для AIC здесь, потому что различное программное обеспечение выводит различную информацию. Возможно, вам придется рассчитать его только по вероятности, или вы можете получить окончательный AIC, или что-то среднее.