Вопросы с тегом «categorical-encoding»

Представление категориальных переменных в виде наборов числовых переменных. Необходим во многих типах анализа для обработки категориальных данных. Типичный пример - использование категориального предиктора в регрессии / ANOVA с помощью фиктивного кодирования, кодирования эффектов, кодирования Гельмерта, определяемых пользователем контрастов и т. Д.

4
Что такое контрастная матрица?
Что именно контрастная матрица (термин, относящийся к анализу с категориальными предикторами) , и как точно указана контрастность матрица? Т.е. что такое столбцы, что такое строки, каковы ограничения на эту матрицу и что означает число в столбце jи строке i? Я пытался заглянуть в документы и веб, но кажется, что все …

7
Например, почему пол обычно кодируется 0/1, а не 1/2?
Я понимаю логику кодирования для анализа данных. Мой вопрос ниже касается использования определенного кода. Есть ли причина, по которой пол часто кодируется как 0 для женщин и 1 для мужчин? Почему эта кодировка считается «стандартной»? Сравните это с Женский = 1 и Мужской = 2. Есть ли проблема с этим …

3
Зачем нам фиктивно кодировать категориальные переменные
Я не уверен, почему нам нужно кодировать категориальные переменные. Например, если у меня есть категориальная переменная с четырьмя возможными значениями 0,1,2,3, я могу заменить ее двумя измерениями. Если бы переменная имела значение 0, она имела бы 0,0 в двух измерениях, если бы она имела 3, она имела бы 1,1 в …

1
Отбрасывание одного из столбцов при использовании быстрого кодирования
Насколько я понимаю, в машинном обучении может возникнуть проблема, если ваш набор данных имеет сильно коррелированные функции, поскольку они эффективно кодируют одну и ту же информацию. Недавно кто-то указал, что когда вы выполняете однократное кодирование для категориальной переменной, вы получаете коррелированные функции, поэтому вы должны отбросить одну из них в …

3
Когда следует использовать множественную регрессию с фиктивным кодированием против ANCOVA?
Недавно я проанализировал эксперимент, который манипулировал 2 категориальными переменными и одной непрерывной переменной, используя ANCOVA. Однако рецензент предположил, что множественная регрессия с категориальной переменной, закодированной как фиктивная переменная, является более подходящим тестом для экспериментов как с категориальными, так и с непрерывными переменными. Когда целесообразно использовать ANCOVA против множественной регрессии с …

2
Значение категориального предиктора в логистической регрессии
У меня проблемы с интерпретацией значений z для категориальных переменных в логистической регрессии. В приведенном ниже примере у меня есть категориальная переменная с 3 классами, и в соответствии со значением z CLASS2 может быть релевантным, а другие нет. Но что это значит? Чтобы я мог объединить другие классы в один? …

5
Как перекодировать категориальную переменную в числовую переменную при использовании SVM или нейронной сети
Чтобы использовать SVM или нейронную сеть, необходимо преобразовать (закодировать) категориальные переменные в числовые переменные. Обычный метод в этом случае - использовать 0-1 двоичные значения с k-ным категориальным значением, преобразованным в (0,0, .. ., 1,0, ... 0) (1 находится в k-й позиции). Существуют ли другие способы сделать это, особенно когда существует …

1
Как относиться к категориальным предикторам в LASSO
Я использую LASSO, в котором есть некоторые категориальные предикторы переменных и некоторые непрерывные. У меня есть вопрос о категориальных переменных. Первый шаг, который я понимаю, - разбить каждого из них на пустышки, стандартизировать их для справедливого наказания, а затем регрессировать. Существует несколько вариантов обработки фиктивных переменных: Включите все манекены, кроме …

2
Качественное кодирование переменных в регрессии приводит к «особенностям»
У меня есть независимая переменная под названием «качество»; эта переменная имеет 3 способа реагирования (плохое качество; среднее качество; высокое качество). Я хочу ввести эту независимую переменную в мою множественную линейную регрессию. Когда у меня есть двоичная независимая переменная (фиктивная переменная, я могу кодировать 0/ 1), ее легко ввести в модель …

2
«Фиктивная переменная» против «индикаторной переменной» для номинальных / категориальных данных
«Фиктивная переменная» и «индикаторная переменная» представляют собой часто используемые термины меток для описания принадлежности к категории с кодированием 0/1; обычно 0: не член категории, 1: член категории. 26.11.2014 быстрый поиск на scholar.google.com (с заключенными в кавычки) показывает, что «фиктивная переменная» используется примерно в 318 000 статей, а «индикаторная переменная» используется …

2
Как сделать регрессию с кодированием эффекта вместо фиктивного кодирования в R?
В настоящее время я работаю над регрессионной моделью, в которой у меня есть только категориальные / факторные переменные в качестве независимых переменных. Моя зависимая переменная является логит-преобразованным коэффициентом. Довольно просто запустить нормальную регрессию в R, так как R автоматически знает, как кодировать манекены, как только они имеют тип «фактор». Однако …

1
Какие существуют разные типы кодировок для категориальных переменных (в R) и когда вы будете их использовать?
Если вы подходите к линейной или смешанной модели, существуют различные типы кодировок, доступных для преобразования категориальной или номинальной вариабельной переменной в ряд переменных, для которых оцениваются параметры, такие как фиктивная кондукция (по умолчанию R) и кодирование эффектов. Я слышал, что кодирование эффектов (иногда называемое отклонением или контрастным кодированием) является предпочтительным, …

2
Понимание создания фиктивных (ручных или автоматических) переменных в GLM
Если в формуле glm используется факторная переменная (например, пол с уровнями M и F), то создаются фиктивные переменные, которые можно найти в сводке модели glm вместе с соответствующими коэффициентами (например, полM) Если вместо того, чтобы полагаться на R для разделения коэффициента таким образом, коэффициент кодируется в виде последовательности числовых переменных …

3
Какие алгоритмы требуют горячего кодирования?
Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие типы алгоритмов требуют, чтобы неупорядоченные категориальные функции были закодированы горячим способом, …

2
Регрессия, основанная, например, на днях недели
Мне нужна небольшая помощь, чтобы двигаться в правильном направлении. Прошло много времени с тех пор, как я изучал статистику, и, похоже, жаргон изменился. Представьте, что у меня есть набор данных, связанных с автомобилем, таких как Время в пути от города А до города Б Расстояние от города А до города …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.