Я работаю над проектом и нуждаюсь в ресурсах, чтобы ускорить меня.
Набор данных составляет около 35000 наблюдений по 30 или около того переменным. Около половины переменных являются категориальными, в то время как некоторые имеют много разных возможных значений, то есть, если вы разделите категориальные переменные на фиктивные переменные, у вас будет намного больше 30 переменных. Но все же, вероятно, порядка пары сотен макс. (П> р).
Ответ, который мы хотим предсказать, является порядковым с 5 уровнями (1,2,3,4,5). Предикторы представляют собой смесь непрерывных и категоричных, около половины каждого. Это мои мысли / планы на данный момент: 1. Относитесь к ответу как к непрерывному и запускайте ванильную линейную регрессию. 2. Запустите номинальную и порядковую логистическую и пробитную регрессию. 3. Используйте MARS и / или другой вариант нелинейной регрессии.
Я знаком с линейной регрессией. МАРС достаточно хорошо описан Хасти и Тибширани. Но я в недоумении, когда дело доходит до порядкового логита / пробита, особенно с таким большим количеством переменных и большим набором данных.
Пока что мой лучший выбор - пакет r glmnetcr , но вряд ли мне хватит документации, чтобы найти меня там, где я должен быть.
Куда я могу пойти, чтобы узнать больше?