Проблемы с горячим кодированием и фиктивным кодированием

Мне известен тот факт, что категориальные переменные с k уровнями должны кодироваться с помощью k-1 переменных в фиктивном кодировании (аналогично для многозначных категориальных переменных). Мне было интересно, сколько проблем делает одноразовое кодирование (то есть использование вместо этого k переменных) вместо фиктивного кодирования для различных методов регрессии, в основном, линейной регрессии, штрафной линейной регрессии (Lasso, Ridge, ElasticNet), на основе дерева (случайные леса). Машины градиентного повышения).

Я знаю, что при линейной регрессии возникают проблемы с множественной коллинеарностью (хотя на практике я использовал линейную регрессию с использованием ОНЭ без каких-либо проблем).

Однако нужно ли использовать фиктивную кодировку во всех них, и насколько неправильными будут результаты, если использовать кодирование одной горячей клавишей?

Мое внимание сосредоточено на прогнозировании в регрессионных моделях с несколькими категориями (с высокой степенью кардинальности), поэтому меня не интересуют доверительные интервалы.

— user90772
источник

Я утверждаю, что неправильно различать два. Фиктивные переменные и переменные типа one-hot являются полными синонимами. Первый термин старше и основан на статистике, а второй - моложе и связан с машинным обучением. Третий и более формальный синоним - это контрастные переменные типа индикатора . Вопрос о том, использовать ли все k или k-1 нередуцируемые переменные в наборе таких элементарных переменных, не имеет ничего общего с этой терминологией и зависит от типа анализа и от конкретного алгоритма или программы.

— ttnphns

(продолжение) Например, программное обеспечение регрессии, как правило, не позволяет вводить все k из-за сингулярности, но эквивалентное общее программное обеспечение для линейного моделирования может позволить это, поскольку оно использует псевдообратный подход.

— ttnphns

Я с @ttnphns, оба это просто ужасные имена. Я предпочитаю полное кодирование и кодирование без изменений .

— Мэтью Друри

Извиняюсь за терминологию, это стандартные термины, которые я видел, используемые практикующими специалистами (и аналогично ориентированные книги). Проблема коллинеарности появляется только в линейных (непенализованных моделях)? Не все программное обеспечение останавливает ввод всех k (например, scikit-learn в Python, поправьте меня, если я ошибаюсь)

— user90772

@MatthewDrury Одной из моих любимых мозолей являются дублирующие термины / фразы, попадающие в область статистического анализа, такие как «кодирование в одно касание» и «A / B-тестирование». Каждый должен придерживаться старого «фиктивного кодирования» и «проверки гипотез», чтобы избежать путаницы.

— RobertF

Ответы:

Проблема с представлением категориальной переменной, которая имеет уровней с переменными в регрессии, состоит в том, что, если модель также имеет постоянный член, то члены будут линейно зависимыми, и, следовательно, модель будет неидентифицируемой. Например, если модель и , то любой выбор $k$ $k$ $μ = a_0 + a_1X_1 + a_2X_2$ $X_2 = 1 - X_1$ $(β_0, β_1, β_2)$ вектора параметров неотличим от . Поэтому, хотя программное обеспечение может дать вам оценку этих параметров, они не определены однозначно и, следовательно, вероятно, не будут очень полезными. $(β_0 + β_2,\; β_1 - β_2,\; 0)$

Штраф сделает модель идентифицируемой, но избыточное кодирование все равно будет странным образом влиять на значения параметров, учитывая вышеизложенное.

Эффект избыточного кодирования для дерева решений (или множества деревьев), вероятно, будет приводить к избыточному весу рассматриваемого признака по сравнению с другими, поскольку он представлен с избыточной избыточной переменной и поэтому будет выбираться чаще, чем в противном случае расщепляется.

— Kodiologist
источник

Я не думаю, что есть какая-либо причина включать перехват в дереве или в ансамбле деревьев. Я считаю, что это особенность моделей линейного типа. Поэтому для моделей на основе дерева, я думаю, правильная идея - не перехват, а полное кодирование.

— Мэтью Друри

@ MatthewDrury Я думаю, что вы правы насчет перехвата, но даже тогда для дерева избыточное кодирование кажется ограниченным. Например, если функция является бинарной, в чем разница между разбиением в первом классе и разбиением во втором классе? Ничего, насколько я могу судить.

— Кодиолог

Это правда, но я думаю, что сохранение полной симметрии - это самый простой способ сохранить все очевидно справедливым и интерпретируемым.

— Мэтью Друри

У кодиолога был отличный ответ (+1). Методы горячего кодирования и фиктивного кодирования одинаковы, с точки зрения дизайна матрицы находятся в одном и том же пространстве с разным основанием. (хотя у горячего кодирования больше столбцов)

Поэтому, если вы сосредоточены на точности, а не на интерпретации. Два метода кодирования не имеют значения.

— Хайтау Ду
источник

Для того, чтобы быть педантичным, версия с одним обновлением не является основой (потому что она линейно зависима); это просто занимает то же место. Но вы уверены, что кодирование не имеет значения для точности? В частности, в случае наказанной регрессии, я думаю, что окончательно выбранная модель будет делать разные прогнозы.

— Кодиолог

@ Kodiologist спасибо за поправку меня на основании вопроса.

— Haitao Du

@ Кодиолог, почему точность будет отличаться в регуляризованном линейном методе?

— Haitao Du

В регуляризованной регрессии вы всегда должны использовать полную кодировку (то есть не оставлять одно слово, я не могу сохранить имена, которые вы использовали, и предпочитаю не использовать их самостоятельно). Это связано с тем, что перехват не наказывается, поэтому, если вы делаете вывод о том, что уровень не является частью перехвата, трудно сказать, что вы штрафуете все уровни одинаково. Вместо этого всегда включайте все уровни, чтобы каждый был симметричным относительно штрафа.

— Мэтью Друри

@ Мэтью Друри, спасибо за этот последний комментарий. Не могли бы вы расширить его в ответе? Так что это только для простой линейной регрессии, где фиктивное кодирование необходимо?

— user90772

Я чувствую , что лучший ответ на этот вопрос утопает в комментариях @MatthewDrury, в котором говорится , что есть разница , и что вы должны использовать , казалось бы , избыточный столбец в любом регуляризованном подходе. @ MatthewDrury рассуждения

[В регуляризованной регрессии], перехват не штрафуется, поэтому, если вы делаете вывод о том, что уровень не является частью перехвата, трудно сказать, что вы штрафуете все уровни одинаково. Вместо этого всегда включайте все уровни, чтобы каждый был симметричным относительно штрафа.

Я думаю, что у него есть точка.

— Бен Огорек
источник

Таким образом, вы должны горячо закодировать переменную с kуровнями или с k-1уровнями в зависимости от ситуации. В дополнение к вашему заявлению (регламентированному / не регламентированному), будут ли рекомендации о том, что делать во всех случаях?

— Дэн Чалтиэль

Мое правило: если нет регуляризации, как в классическом ANOVA, используйте уровни k-1. Если есть регуляризация, как в байесовских методах или регрессии с регуляризацией L2, используйте k уровней.

— Бен Огорек