У меня классическая линейная модель, с 5 возможными регрессорами. Они не связаны друг с другом и имеют довольно низкую корреляцию с ответом. Я пришел к модели, в которой 3 регрессора имеют значимые коэффициенты для своей t-статистики (р <0,05). Добавление одной или обеих оставшихся 2 переменных дает значения p> 0,05 для статистики t, для добавленных переменных. Это приводит меня к мысли, что модель с тремя переменными является «лучшей».
Однако, используя команду anova (a, b) в R, где a - это модель с 3 переменными, а b - полная модель, значение p для статистики F составляет <0,05, что говорит мне о том, что я предпочитаю полную модель над переменной 3 модель. Как я могу примирить эти очевидные противоречия?
Спасибо PS Редактировать: немного дальнейшего фона. Это домашнее задание, поэтому я не буду публиковать подробности, но нам не дают подробностей о том, что представляют собой регрессоры - они просто пронумерованы от 1 до 5. Нас просят «найти подходящую модель, дающую обоснование».