Вопросы с тегом «categorical-data»

Категориальные (также называемые номинальными) данные могут принимать ограниченное количество возможных значений, называемых категориями. Категориальные значения «обозначают», они не «измеряют». Пожалуйста, используйте тег [ordinal-data] для дискретных, но упорядоченных типов данных.

2
Можно ли создать график «параллельных множеств», используя R?
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Благодаря вопросу Тормода (размещен здесь ) я наткнулся на сюжет « Параллельные множества» . Вот пример того, как это выглядит: (Это визуализация …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
«Фиктивная переменная» против «индикаторной переменной» для номинальных / категориальных данных
«Фиктивная переменная» и «индикаторная переменная» представляют собой часто используемые термины меток для описания принадлежности к категории с кодированием 0/1; обычно 0: не член категории, 1: член категории. 26.11.2014 быстрый поиск на scholar.google.com (с заключенными в кавычки) показывает, что «фиктивная переменная» используется примерно в 318 000 статей, а «индикаторная переменная» используется …

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Смешивать непрерывные и двоичные данные с линейным SVM?
Так что я играл с SVM, и мне интересно, хорошо ли это делать: У меня есть набор непрерывных функций (от 0 до 1) и набор категориальных функций, которые я преобразовал в фиктивные переменные. В этом конкретном случае я кодирую дату измерения в фиктивной переменной: У меня есть 3 периода, из …

2
Как сделать регрессию с кодированием эффекта вместо фиктивного кодирования в R?
В настоящее время я работаю над регрессионной моделью, в которой у меня есть только категориальные / факторные переменные в качестве независимых переменных. Моя зависимая переменная является логит-преобразованным коэффициентом. Довольно просто запустить нормальную регрессию в R, так как R автоматически знает, как кодировать манекены, как только они имеют тип «фактор». Однако …

1
Может ли логистическая регрессия glmnet напрямую обрабатывать факторные (категориальные) переменные без использования фиктивных переменных? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 3 года назад . Я строю логистическую регрессию в R, используя метод LASSO с функциями cv.glmnetдля выбора lambdaи glmnetдля окончательной модели. Я уже …

2
Можем ли мы использовать категориальную независимую переменную в дискриминантном анализе?
В дискриминантном анализе зависимая переменная является категориальной, но могу ли я использовать категориальную переменную (например, статус проживания: сельский, городской) вместе с некоторой другой непрерывной переменной в качестве независимой переменной в линейном дискриминантном анализе?

2
Всегда ли неправильно переходить от непрерывных данных к категориальным?
Когда я читал о том, как настроить ваши данные, я часто сталкивался с тем, что преобразование некоторых непрерывных данных в категориальные данные не является хорошей идеей, поскольку вы можете сделать неправильный вывод, если пороговые значения плохо определены. Тем не менее, в настоящее время у меня есть некоторые данные (значения PSA …

3
Почему корреляция не очень полезна, когда одна из переменных является категориальной?
Это небольшая проверка, пожалуйста, помогите мне понять, неправильно ли я понимаю эту концепцию и каким образом. У меня есть функциональное понимание корреляции, но я чувствую себя немного цепко, чтобы действительно уверенно объяснить принципы, лежащие в основе этого функционального понимания. Насколько я понимаю, статистическая корреляция (в отличие от более общего использования …

1
Можно ли смешивать категориальные и непрерывные данные для SVM (Машины опорных векторов)?
У меня есть набор данных, как +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 …

1
Какие существуют разные типы кодировок для категориальных переменных (в R) и когда вы будете их использовать?
Если вы подходите к линейной или смешанной модели, существуют различные типы кодировок, доступных для преобразования категориальной или номинальной вариабельной переменной в ряд переменных, для которых оцениваются параметры, такие как фиктивная кондукция (по умолчанию R) и кодирование эффектов. Я слышал, что кодирование эффектов (иногда называемое отклонением или контрастным кодированием) является предпочтительным, …

2
Методы объединения / сокращения категорий в порядковых или номинальных данных?
Я изо всех сил пытаюсь найти метод для уменьшения количества категорий в номинальных или порядковых данных. Например, предположим, что я хочу построить регрессионную модель на наборе данных, который имеет ряд номинальных и порядковых факторов. Несмотря на то, что у меня нет проблем с этим шагом, я часто сталкиваюсь с ситуациями, …

8
Обучите нейронную сеть, чтобы различать четные и нечетные числа
Вопрос: можно ли обучить NN различать нечетные и четные числа, используя только в качестве входных данных сами числа? У меня есть следующий набор данных: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 Я тренировал NN с двумя входными …

3
Замена переменных на WoE (вес доказательств) в логистической регрессии
Это вопрос, касающийся практики или метода, которым следуют некоторые из моих коллег. При создании модели логистической регрессии я видел, как люди заменяли категориальные переменные (или непрерывные переменные, которые сгруппированы) на соответствующий вес доказательств (WoE). Предположительно это делается для установления монотонной связи между регрессором и зависимой переменной. Теперь, насколько я понимаю, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.