У меня есть набор данных около 5000 функций. Для этих данных я сначала использовал тест Chi Square для выбора функции; после этого я получил около 1500 переменных, которые показали связь значимости с переменной отклика.
Теперь мне нужно приспособить логистическую регрессию к этому. Я использую пакет glmulti для R (пакет glmulti обеспечивает эффективный выбор подмножества для vlm), но он может использовать только 30 функций одновременно, иначе его производительность снижается, так как число строк в моем наборе данных составляет около 20000.
Есть ли другой подход или методы для решения вышеуказанных проблем? Если я воспользуюсь описанным выше методом, это займет слишком много времени, чтобы соответствовать модели.
sklearn
s, LogisticRegression
и это решает проблему 4000 функций, 20000 строк примерно за минуту на моем ноутбуке.