Мне известен тот факт, что категориальные переменные с k уровнями должны кодироваться с помощью k-1 переменных в фиктивном кодировании (аналогично для многозначных категориальных переменных). Мне было интересно, сколько проблем делает одноразовое кодирование (то есть использование вместо этого k переменных) вместо фиктивного кодирования для различных методов регрессии, в основном, линейной регрессии, штрафной линейной регрессии (Lasso, Ridge, ElasticNet), на основе дерева (случайные леса). Машины градиентного повышения).
Я знаю, что при линейной регрессии возникают проблемы с множественной коллинеарностью (хотя на практике я использовал линейную регрессию с использованием ОНЭ без каких-либо проблем).
Однако нужно ли использовать фиктивную кодировку во всех них, и насколько неправильными будут результаты, если использовать кодирование одной горячей клавишей?
Мое внимание сосредоточено на прогнозировании в регрессионных моделях с несколькими категориями (с высокой степенью кардинальности), поэтому меня не интересуют доверительные интервалы.