Ответы:
Вы не хотите удалять все коррелированные переменные. Только когда корреляция настолько сильна, что они не передают дополнительную информацию. Это зависит как от степени корреляции, от того, сколько у вас данных, так и от того, что небольшая разница между коррелированными переменными скажет вам что-то о результате.
Первые два вы можете сказать, прежде чем делать какую-либо модель, последний нет. Таким образом, может быть очень разумно удалить переменные на основе комбинации первых двух соображений (т. Е. Даже если в принципе дополнительные переменные могут содержать некоторую полезную информацию, вы не сможете сказать, учитывая силу корреляции и объем данных у вас есть), прежде чем делать какое-либо моделирование / проектирование объектов. Финальная точка действительно может быть оценена только после некоторого моделирования.
Странно, что никто больше не упоминал интерпретируемость .
Если вас интересует только производительность , то нет смысла удалять две коррелированные переменные, если только корреляция не равна 1 или -1, и в этом случае одна из переменных является избыточной.
Но если вас беспокоит интерпретируемость, то может иметь смысл удалить одну из переменных, даже если корреляция мягкая. Это особенно верно для линейных моделей. Одним из предположений о линейной регрессии является отсутствие совершенной мультиколлинеарности в предикторах.
Если A коррелирует с B, то вы не можете интерпретировать коэффициенты ни A, ни B. Чтобы понять почему, представьте себе крайний случай, когда A = B (идеальная корреляция). Тогда модель y = 100 * A + 50 * B совпадает с моделью y = 5 * A + 10 * B или y = -2000 * A + 4000 * B. Есть несколько равновесий в возможных решениях задачи минимизации наименьших квадратов, поэтому вы не можете «доверять» ни тому, ни другому.
Подобные вещи могут случиться с другими моделями. Например, если A очень сильно коррелирует с B, то, если дерево решений выбирает A, удваивающее время как B, то вы не можете сказать, что A важнее, чем B. Если вы переобучите модель, могло произойти обратное.
Вы должны рассмотреть возможность проверки VIF (дисперсионный фактор инфляции). Попробуйте удалить функции с более высоким VIF. Как правило, предпочтительно, чтобы VIF был ниже 10.
Это не важно Но для эффективности, прежде чем особенность техники.
Определите ковариацию и сделайте свою начальную работу с самым высоким набором.