Таким образом, ваш запрос представляет собой сравнение линейной регрессии с важностью переменных, полученных из модели случайного леса.
р2
Другой популярный подход - усреднение по порядку (LMG, 1980). LMG работает так:
- SSa/ SSт о т лр2a
- а , б , вб , а , вб , в , а
- Найти среднее значение получастичных корреляций для каждого из этих порядков. Это среднее по заказам.
Алгоритм случайного леса подходит для нескольких деревьев, каждое дерево в лесу строится путем случайного выбора различных объектов из набора данных. Узлы каждого дерева создаются путем выбора и разделения для достижения максимального уменьшения дисперсии. При прогнозировании на тестовом наборе данных выходные данные отдельных деревьев усредняются для получения окончательного результата. Каждая переменная переставляется среди всех деревьев, и вычисляется разность ошибок выборки до и после перестановки. Переменные с наибольшей разницей считаются наиболее важными, а переменные с более низкими значениями менее важны.
Метод подгонки модели к данным обучения сильно отличается для модели линейной регрессии по сравнению с моделью случайного леса. Но обе модели не содержат структурных связей между переменными.
Относительно вашего запроса о нелинейности зависимой переменной: Лассо - это, по сути, линейная модель, которая не сможет дать хорошие прогнозы для лежащих в основе нелинейных процессов по сравнению с древовидными моделями. Вы должны быть в состоянии проверить это, проверив производительность моделей с помощью набора тестов в стороне. Если случайный лес работает лучше, базовый процесс может быть нелинейным. В качестве альтернативы, вы можете включить эффекты взаимодействия переменных и переменные более высокого порядка, созданные с использованием a, b и c, в модель лассо и проверить, работает ли эта модель лучше по сравнению с лассо только с линейной комбинацией a, b и c. Если это так, то основной процесс может быть нелинейным.
Ссылки: