Почему R требует много времени для подбора модели с многоуровневым фактором?


12

Я подхожу к модели с многовариантным множителем, и R требует очень много времени, чтобы соответствовать этой модели. Почему это?

Например, если я подгоняю регрессию к прогнозированию зарплат игроков и включаю предиктор факторов для всех национальностей игроков, это займет больше времени, чем подгонка модели для зарплат игроков с непрерывным предиктором, таким как игроки. высоты.


5
Может быть полезно понять, что хотя фактор выглядит как одна переменная (это один столбец во фрейме данных, один элемент в спецификации модели и т. Д.), За кулисами он фактически будет рассматриваться как группа отдельных предикторов. Поэтому модель намного сложнее, чем модель с одним (непрерывным) предиктором.
Гала-концерт

Ответы:


13

Типично R - как и большинство пакетов статистики, для регрессии используется QR-декомпозиция.

Для фиксированного , где , просто вычисление самого разложения эффективно квадратично по - удвоение числа предикторов умножит время вычисления примерно на 4.Nп<<Nп

Поэтому, если вы перейдете от (линейная регрессия) к , вы ожидаете, что это займет что-то в области в 600 раз дольше (в действительности, возможно, несколько меньше, по разным причинам).пзнак равно2пзнак равно50

Таким образом, добавление большого количества предсказателей будет означать значительно более длительное ожидание.


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.