Я думаю, что нет однозначного ответа на ваш вопрос - это зависит от многих ситуаций, данных и того, что вы пытаетесь сделать. Некоторые изменения могут быть или должны быть изменены для достижения цели. Однако следующее общее обсуждение может помочь.
Прежде чем перейти к более продвинутым методам, давайте сначала обсудим базовую модель: регрессия наименьших квадратов (LS) . Есть две причины, по которым оценка параметров методом наименьших квадратов в полной модели неудовлетворительна:
Качество прогноза: оценки наименьших квадратов часто имеют небольшой уклон, но высокую дисперсию. Качество предсказания иногда может быть улучшено путем сжатия коэффициентов регрессии или путем установки некоторых коэффициентов равными нулю. Таким образом, смещение увеличивается, но дисперсия прогноза значительно уменьшается, что приводит к общему улучшению прогноза. Этот компромисс между смещением и дисперсией можно легко увидеть, разложив среднеквадратичную ошибку (MSE). Чем меньше MSE, тем лучше прогноз новых значений.
Интерпретируемость : если доступно много переменных-предикторов, имеет смысл определить те, которые имеют наибольшее влияние, и установить в ноль те, которые не имеют отношения к прогнозу. Таким образом, мы исключаем переменные, которые будут объяснять только некоторые детали, но мы оставляем те, которые допускают основное объяснение переменной ответа.
Таким образом, методы выбора переменных приходят на сцену. При выборе переменных используется только подмножество всех входных переменных, остальное исключается из модели. Наилучшая регрессия поднабора находит подмножество размера для каждогоК который дает наименьшее RSS. Эффективным алгоритмом является так называемыйалгоритм «скачки и границы»,который может обрабатывать до 30 или 40 переменных регрессора. С наборами данных больше 40k∈{0,1,...,p}304040Во входных переменных поиск по всем возможным подмножествам становится невозможным. Таким образом, пошаговый выбор вперед и пошаговый выбор назад полезны. Обратный выбор может использоваться только при для того, чтобы иметь хорошо определенную модель. Эффективность вычислений этих методов сомнительна, когда p очень высоко.n>pp
Во многих ситуациях у нас есть большое количество входных данных (как у вас), часто сильно коррелированных (как в вашем случае). В случае высоко коррелированных регрессоров, МНК приводит к численно нестабильным параметрам , т.е. ненадежным β оценкам. Чтобы избежать этой проблемы, мы используем методы, которые используют производные направления ввода. Эти методы дают небольшое количество линейных комбинаций исходных входов x j, которые затем используются в качестве входных данных в регрессии.zk,k=1,2,...,qxj
Методы отличаются тем, как строятся линейные комбинации. Регрессия главных компонентов (ПЦР) ищет преобразования исходных данных в новый набор некоррелированных переменных, называемых главными компонентами .
yXyXβγγq≤pXyy
λ≥0λ , тем больше величина усадки. Коэффициенты сокращаются до нуля (и друг к другу).
ββ . Путем наложения ограничения на размер коэффициентов это явление можно предотвратить.
Xp−q
YяРазница между L1 и L2 заключается только в том, что L2 - это сумма квадратов весов, а L1 - просто сумма весов. L1-норма имеет тенденцию производить разреженные коэффициенты и имеет встроенную функцию выбора . L1-норма не имеет аналитического решения, но L2-норма есть. Это позволяет L2-нормальным решениям вычисляться эффективно с вычислительной точки зрения. L2-норма имеет уникальные решения, а L1-норма - нет.
Лассо иs0s
р ≫N
Анализ основных компонентов - это эффективный метод поиска линейных комбинаций признаков, которые демонстрируют большие различия в наборе данных. Но здесь мы ищем линейные комбинации с высокой дисперсией и значительной корреляцией с результатом. Следовательно, мы хотим поощрить анализ главных компонентов, чтобы найти линейные комбинации характеристик, которые имеют высокую корреляцию с результатами - контролируемыми главными компонентами (см. Страницу 678, Алгоритм 18.1, в книге Элементы статистического обучения). ).
Частичные наименьшие квадраты уменьшают весовые шумы, но не выбрасывают их; в результате большое количество шумных функций может испортить прогнозы. Thresholded PLS можно рассматривать как зашумленную версию контролируемых основных компонентов, и, следовательно, мы не можем ожидать, что она будет работать на практике. Контролируемые главные компоненты могут привести к меньшим ошибкам тестирования, чем Threshold PLS . Тем не менее, он не всегда создает разреженную модель, включающую лишь небольшое количество функций.
п