Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для каждого уровня, значения функций относятся к каждому уровню, а не к каждому элементу (столбцу). Каков хороший способ агрегирования этих важных функций?
Я думал о суммировании или получении средней важности для всех уровней функции (вероятно, первая будет смещена в сторону тех функций с большим количеством уровней). Есть ли какие-либо ссылки на этот вопрос?
Что еще можно сделать, чтобы уменьшить количество функций? Я знаю о группе Лассо, не мог найти ничего простого в использовании для scikit-learn.