У меня есть большой набор данных, состоящий из значений нескольких сотен финансовых переменных, которые можно использовать в множественной регрессии для прогнозирования поведения индексного фонда во времени. Я хотел бы сократить число переменных до десяти или около того, сохраняя при этом как можно большую предсказательную силу. Добавлено: сокращенный набор переменных должен быть подмножеством исходного набора переменных, чтобы сохранить экономический смысл исходных переменных. Так, например, я не должен заканчиваться линейными комбинациями или агрегатами исходных переменных.
Некоторые (возможно, наивные) мысли о том, как это сделать:
- Выполните простую линейную регрессию с каждой переменной и выберите десятку с наибольшим значением . Конечно, нет никакой гарантии, что десять лучших отдельных переменных будут лучшей группой из десяти.
- Выполните анализ главных компонентов и попытайтесь найти десять исходных переменных с наибольшими связями с первыми несколькими основными осями.
Я не думаю, что смогу выполнить иерархическую регрессию, потому что переменные на самом деле не являются вложенными. Попытка использовать все возможные комбинации из десяти переменных невозможна в вычислительном отношении, поскольку существует слишком много комбинаций.
Существует ли стандартный подход для решения этой проблемы уменьшения числа переменных в множественной регрессии?
Кажется, что это было бы достаточно распространенной проблемой, что был бы стандартный подход.
Очень полезным ответом будет тот, который не только упоминает стандартный метод, но также дает представление о том, как и почему он работает. В качестве альтернативы, если нет единого стандартного подхода, а есть несколько подходов с разными сильными и слабыми сторонами, очень полезным будет ответ, в котором обсуждаются их плюсы и минусы.
Приведенный ниже комментарий Вубера указывает на то, что запрос в последнем абзаце слишком широк. Вместо этого я бы принял в качестве хорошего ответа список основных подходов, возможно, с очень кратким описанием каждого. Как только у меня появятся условия, я смогу выкопать детали каждого из них.