Отказ от ответственности: это для домашнего проекта.
Я пытаюсь найти лучшую модель для цен на алмазы, в зависимости от нескольких переменных, и у меня пока что есть довольно хорошая модель. Однако я столкнулся с двумя переменными, которые явно коллинеарны:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Таблица и глубина зависят друг от друга, но я все еще хочу включить их в мою прогнозную модель. Я провел некоторое исследование алмазов и обнаружил, что Таблица и Глубина - это длина поперек вершины и расстояние от верха до низа алмаза. Поскольку эти цены на бриллианты, похоже, связаны с красотой, а красота, кажется, соотносится с пропорциями, я собирался включить их соотношение, скажем, , чтобы предсказать цены. Это стандартная процедура для работы с коллинеарными переменными? Если нет, то что?
Изменить: Вот график Глубина ~ Таблица: