Какие существуют разные типы кодировок для категориальных переменных (в R) и когда вы будете их использовать?

Если вы подходите к линейной или смешанной модели, существуют различные типы кодировок, доступных для преобразования категориальной или номинальной вариабельной переменной в ряд переменных, для которых оцениваются параметры, такие как фиктивная кондукция (по умолчанию R) и кодирование эффектов.

Я слышал, что кодирование эффектов (иногда называемое отклонением или контрастным кодированием) является предпочтительным, когда у вас есть взаимодействия, но каковы возможные контрасты и когда вы будете использовать какой тип контраста?

В R используется смешанное моделирование контекста lme4, но я думаю, что более широкие ответы хороши. Извините, если я пропустил подобный вопрос.

РЕДАКТИРОВАТЬ: две полезные ссылки: кодирование эффекта и фиктивное кодирование объяснено.

— Хенрик
источник

Если у вас есть Современная прикладная статистика с S-Plus, в этом

— шестом

Я не думаю , что вы найдете полный ответ на ваш вопрос, но есть много полезной информации о различных типах кодировок здесь .

— gung - Восстановить Монику

@gung Сайт выглядит действительно интересно. Однако, похоже, он не охватывает контрастное кодирование (или есть другое название для него).

— Хенрик

Я не уверен; Интересно, есть ли недопонимание. Название этой страницы - «контрастное кодирование».

— gung - Восстановить Монику

Я не совсем понимаю, какой вопрос остается. Если вы хотели список различных типов кодирования, у вас есть это. Какова основная направленность вашего вопроса сейчас?

— gung - Восстановить Монику

Другие могут просветить меня, если я ошибаюсь, но здесь идет ...

Каков эффект для уровня по сравнению со средним уровнем предыдущих уровней? т.е. вам интересно найти порог эффекта

Используйте контрасты Гельмерта. Я считаю это кумулятивным сравнением. Я использовал это, когда заинтересован в определении предела доза-реакция лекарств на воздействие. Сравнение с несколькими уровнями одновременно означает, что выбрасывается меньше информации. Я считаю это кумулятивным сравнением.

Каково влияние уровня относительно базового уровня? т.е. вы заинтересованы в одной базовой группе сравнения.

Используйте фиктивную переменную кодирования (контрасты лечения). Я думаю об этом как о базовых сравнениях. Я использовал это, когда, как правило, одна группа / уровень считалась важной в других исследованиях, и мое исследование показывает, что ассоциации также существуют, когда этот порог превышен.

Каково влияние двух смежных уровней переменной?

Используйте прямое / обратное различие. Я думаю об этом как о последовательных сравнениях с коротким интервалом. Я использовал это при сравнении эффектов для разных уровней социально-экономического положения, когда каждая группа композиционно отличается сама по себе и не более интересна, чем любая другая.

— Gavin
источник