Вопросы с тегом «categorical-encoding»

Представление категориальных переменных в виде наборов числовых переменных. Необходим во многих типах анализа для обработки категориальных данных. Типичный пример - использование категориального предиктора в регрессии / ANOVA с помощью фиктивного кодирования, кодирования эффектов, кодирования Гельмерта, определяемых пользователем контрастов и т. Д.

6
Как называется «горячая» кодировка в научной литературе?
Как называется оператор, который берет категориальный вектор и преобразует его в двоичное представление, используя горячее кодирование? Я задаюсь вопросом, так как я пишу научную статью и нужное имя для этого.

3
Переменная индикатора для двоичных данных: {-1,1} против {0,1}
Я заинтересован в лечебно-ковариат взаимодействий в контексте экспериментов / рандомизированных контролируемых исследований, с бинарным назначения лечения индикатора .TTT В зависимости от конкретного метода / источника, я видел как и T = { 1 , - 1 } для обработанных и необработанных субъектов соответственно.T={1,0}Tзнак равно{1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} Есть ли эмпирическое правило, когда …

3
Как работать с недвоичными категориальными переменными в логистической регрессии (SPSS)
Я должен сделать бинарную логистическую регрессию с большим количеством независимых переменных. Большинство из них являются двоичными, но некоторые из категориальных переменных имеют более двух уровней. Как лучше всего справиться с такими переменными? Например, для переменной с тремя возможными значениями я предполагаю, что необходимо создать две фиктивные переменные. Затем, в пошаговой …

4
Как статистически доказать, имеет ли столбец категориальные данные или не использует Python
У меня есть фрейм данных в Python, где мне нужно найти все категориальные переменные. Проверка типа столбца не всегда работает, потому что intтип также может быть категоричным. Поэтому я ищу помощь в поиске правильного метода проверки гипотез, чтобы определить, является ли столбец категоричным или нет. Я пробовал ниже критерия хи-квадрат, …

1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Почему столбец пересечения в model.matrix заменяет первый фактор?
Я пытаюсь преобразовать столбец фактора в фиктивные переменные: str(cards$pointsBin) # Factor w/ 5 levels ".lte100",".lte150",..: 3 2 3 1 4 4 2 2 4 4 ... labels <- model.matrix(~ pointsBin, data=cards) head(labels) # (Intercept) pointsBin.lte150 pointsBin.lte200 pointsBin.lte250 pointsBin.lte300 # 741 1 0 0 0 0 # 407 1 1 0 …

4
Как реализовать фиктивную переменную, используя n-1 переменные?
Если у меня есть переменная с 4 уровнями, теоретически мне нужно использовать 3 фиктивные переменные. На практике, как это на самом деле осуществляется? Я использую 0-3, я использую 1-3 и оставляю 4 пустыми? Какие-либо предложения? ПРИМЕЧАНИЕ: я собираюсь работать в R. ОБНОВЛЕНИЕ: Что случилось бы, если бы я только использовал …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.