До сих пор я удалял коллинеарные переменные как часть процесса подготовки данных, просматривая корреляционные таблицы и удаляя переменные, которые превышают определенный порог. Есть ли более приемлемый способ сделать это? Кроме того, я знаю, что рассмотрение только двух переменных одновременно не является идеальным, измерения, такие как VIF, учитывают потенциальную корреляцию между несколькими переменными. Как можно было бы систематически выбирать переменные комбинации, которые не проявляют мультиколлинеарности?
У меня есть данные внутри фрейма данных панд, и я использую модели Склеарна.