Общие процедуры выбора переменных на основе данных (например, прямое, обратное, пошаговое, все подмножества) имеют тенденцию приводить к появлению моделей с нежелательными свойствами, включая:
- Коэффициенты смещены от нуля.
- Слишком малые стандартные ошибки и слишком узкие доверительные интервалы.
- Проверьте статистику и p-значения, которые не имеют объявленного значения.
- Оценки соответствия модели, которые являются чрезмерно оптимистичными.
- Включенные термины, которые могут быть бессмысленными (например, исключение терминов более низкого порядка).
Тем не менее, процедуры выбора переменных сохраняются. Учитывая проблемы с выбором переменных, зачем нужны эти процедуры? Что мотивирует их использование?
Некоторые предложения, чтобы начать обсуждение ....
- Желание интерпретируемых коэффициентов регрессии? (Введен в заблуждение в модели со многими IV?)
- Устранить дисперсию, вносимую нерелевантными переменными?
- Устранить ненужные ковариации / избыточности среди независимых переменных?
- Уменьшите количество оценок параметров (проблемы мощности, размера выборки)
Есть ли другие? Являются ли проблемы, решаемые методами выбора переменных, более или менее важными, чем проблемы, возникающие при выборе переменных? Когда их следует использовать? Когда их не следует использовать?