Вопросы с тегом «many-categories»

Категориальные переменные с большим количеством уровней и статистические методы работы с такими переменными (пример: слитное лассо).

6
Принципиальный способ свертывания категориальных переменных со многими уровнями?
Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен, но потенциально может иметь десятки различных уровней. Допустим, я хочу использовать майор в качестве …

6
Улучшение классификации со многими категориальными переменными
Я работаю над набором данных с 200 000+ выборок и примерно 50 объектами на выборку: 10 непрерывных переменных, а остальные ~ 40 являются категориальными переменными (страны, языки, научные области и т. Д.). Для этих категориальных переменных у вас есть, например, 150 разных стран, 50 языков, 50 научных областей и т. …

6
Проблемы с круговыми диаграммами
Похоже, что все чаще обсуждают круговые диаграммы. Основными аргументами против этого являются: Площадь воспринимается с меньшей силой, чем длина. Круговые диаграммы имеют очень низкое отношение данных к пикселям Тем не менее, я думаю, что они могут быть как-то полезны при изображении пропорций. Я согласен использовать таблицу в большинстве случаев, но …

7
Как изобразить географию или почтовый индекс в модели машинного обучения или в системе рекомендаций?
Я строю модель, и я думаю, что географическое местоположение, вероятно, будет очень хорошим для предсказания моей целевой переменной. У меня есть почтовый индекс каждого из моих пользователей. Я не совсем уверен в том, как лучше всего включить в мою модель почтовый индекс в качестве предиктора. Хотя почтовый индекс является числом, …

5
R's randomForest не может обрабатывать более 32 уровней. Что такое обходной путь?
R-пакет randomForest не может обрабатывать фактор с более чем 32 уровнями. Когда ему дается более 32 уровней, выдается сообщение об ошибке: Не может обрабатывать категориальные предикторы с более чем 32 категориями. Но у меня есть несколько факторов. Некоторые из них имеют более 1000 уровней, а некоторые - более 100. У …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Фиксированный эффект против случайного эффекта, когда все возможности включены в модель смешанных эффектов
В модели смешанных эффектов рекомендуется использовать фиксированный эффект для оценки параметра, если включены все возможные уровни (например, как мужчины, так и женщины). Кроме того, рекомендуется использовать случайный эффект для учета переменной, если включенные уровни представляют собой просто случайную выборку из популяции (зарегистрированных пациентов из вселенной возможных пациентов) и вы хотите …

2
Кодирование категориальных функций в числа для машинного обучения
Многие алгоритмы машинного обучения, например нейронные сети, предполагают работу с числами. Поэтому, когда у вас есть категорические данные, вам необходимо преобразовать их. Под категориальным я имею в виду, например: Марки автомобилей: Audi, BMW, Chevrolet ... Идентификаторы пользователей: 1, 25, 26, 28 ... Несмотря на то, что идентификаторы пользователей - это …

2
Методы объединения / сокращения категорий в порядковых или номинальных данных?
Я изо всех сил пытаюсь найти метод для уменьшения количества категорий в номинальных или порядковых данных. Например, предположим, что я хочу построить регрессионную модель на наборе данных, который имеет ряд номинальных и порядковых факторов. Несмотря на то, что у меня нет проблем с этим шагом, я часто сталкиваюсь с ситуациями, …

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Сокращение количества уровней неупорядоченной категориальной предикторной переменной
Я хочу обучить классификатор, скажем SVM, или случайный лес, или любой другой классификатор. Одной из функций в наборе данных является категориальная переменная с 1000 уровнями. Каков наилучший способ уменьшить количество уровней в этой переменной. В R есть функция, называемая combine.levels()в пакете Hmisc , которая объединяет нечастые уровни, но я искал …

3
Проблемы с горячим кодированием и фиктивным кодированием
Мне известен тот факт, что категориальные переменные с k уровнями должны кодироваться с помощью k-1 переменных в фиктивном кодировании (аналогично для многозначных категориальных переменных). Мне было интересно, сколько проблем делает одноразовое кодирование (то есть использование вместо этого k переменных) вместо фиктивного кодирования для различных методов регрессии, в основном, линейной регрессии, …

3
Пакет R для объединения уровней факторов для обработки данных?
Хотите знать, сталкивался ли кто-нибудь с пакетом / функцией в R, которая объединит уровни фактора, доля всех уровней которого меньше некоторого порога? В частности, одним из первых шагов в подготовке данных, которые я выполняю, является объединение разреженных уровней факторов вместе (скажем, в уровень, называемый «Другой»), которые не составляют, по крайней …

1
Методы наказания за категориальные данные: объединение уровней в фактор
Наказанные модели могут использоваться для оценки моделей, в которых количество параметров равно или даже превышает размер выборки. Такая ситуация может возникнуть в лог-линейных моделях больших разреженных таблиц категориальных данных или данных подсчета. В этих настройках часто также желательно или полезно сворачивать таблицы, комбинируя уровни фактора, где эти уровни не различимы …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.