Вопросы с тегом «categorical-data»

Категориальные (также называемые номинальными) данные могут принимать ограниченное количество возможных значений, называемых категориями. Категориальные значения «обозначают», они не «измеряют». Пожалуйста, используйте тег [ordinal-data] для дискретных, но упорядоченных типов данных.

3
Могу ли я использовать множественную регрессию, когда у меня смешаны категориальные и непрерывные предикторы?
Похоже, вы можете использовать кодирование для одной категориальной переменной, но у меня есть две категориальные и одна непрерывная переменная предиктора. Могу ли я использовать множественную регрессию для этого в SPSS и если да, то как? Благодарность!

3
Какие алгоритмы требуют горячего кодирования?
Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие типы алгоритмов требуют, чтобы неупорядоченные категориальные функции были закодированы горячим способом, …

2
Почему R требует много времени для подбора модели с многоуровневым фактором?
Я подхожу к модели с многовариантным множителем, и R требует очень много времени, чтобы соответствовать этой модели. Почему это? Например, если я подгоняю регрессию к прогнозированию зарплат игроков и включаю предиктор факторов для всех национальностей игроков, это займет больше времени, чем подгонка модели для зарплат игроков с непрерывным предиктором, таким …

2
Коэффициент корреляции для недихотомической номинальной переменной и порядковой или числовой переменной
Я уже прочитал все страницы на этом сайте, пытаясь найти ответ на мою проблему, но, похоже, никто не подходит мне ... Сначала я объясню вам, с какими данными я работаю ... Допустим, у меня есть вектор-массив с несколькими названиями городов, по одному для каждого из 300 пользователей. У меня также …

1
Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?
Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал коэффициент Джакарда . Однако что если значения номинального атрибута не равны 2? …

2
glmnet: как понять многочленовую параметризацию?
Следующая проблема: я хочу предсказать переменную категориального ответа с одной (или более) категориальными переменными, используя glmnet (). Тем не менее, я не могу понять, какой вывод дает мне glmnet. Хорошо, сначала давайте сгенерируем две связанные категориальные переменные: Генерировать данные p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), …

2
Как найти показатель корреляции между двумя номинальными переменными?
Был проведен опрос, когда люди выбрали то, что они используют, чтобы представить своего смайлика, и въехали в страну происхождения. Я перекодировал текстовые ответы в числовые. Какую форму анализа следует использовать (предпочтительно в SPSS), чтобы проверить уровень корреляции между тем, откуда приходят люди, и представлениями, которые они выбрали?

2
Регрессия, основанная, например, на днях недели
Мне нужна небольшая помощь, чтобы двигаться в правильном направлении. Прошло много времени с тех пор, как я изучал статистику, и, похоже, жаргон изменился. Представьте, что у меня есть набор данных, связанных с автомобилем, таких как Время в пути от города А до города Б Расстояние от города А до города …

2
Коллинеарность между категориальными переменными
Есть много о коллинеарности в отношении непрерывных предикторов, но не так много, что я могу найти в категориальных предикторах. У меня есть данные этого типа, показанные ниже. Первый фактор - это генетическая переменная (количество аллелей), второй фактор - категория заболевания. Ясно, что гены предшествуют заболеванию и являются фактором, демонстрирующим симптомы, …

2
Должен ли я проводить отдельные регрессии для каждого сообщества или сообщество может быть просто управляющей переменной в агрегированной модели?
Я использую модель OLS с непрерывной переменной индекса ресурса в качестве DV. Мои данные собраны из трех аналогичных сообществ в географической близости друг к другу. Несмотря на это, я подумал, что важно использовать сообщество в качестве управляющей переменной. Как оказалось, сообщество значимо на уровне 1% (t-оценка -4,52). Сообщество - это …

2
Быстро оценить (визуально) корреляции между упорядоченными категориальными данными в R?
Я ищу корреляции между ответами на разные вопросы в опросе («хмм, давайте посмотрим, соотносятся ли ответы на вопрос 11 с ответами на вопрос 78»). Все ответы являются категоричными (большинство из них варьируются от «очень несчастных» до «очень счастливых»), но у некоторых есть другой набор ответов. Большинство из них можно считать …

6
Как найти сводную статистику для всех уникальных комбинаций факторов в data.frame в R? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я хочу рассчитать сводку переменной в data.frame для каждой уникальной комбинации факторов в data.frame. Должен ли я использовать plyr …

4
Несколько тестов хи-квадрат
У меня есть перекрестные данные в таблице 2 x 2 x 6. Давайте назовем размеры response, Aи B. Я подгоняю логистическую регрессию к данным с помощью модели response ~ A * B. Анализ отклонения этой модели говорит о том, что оба термина и их взаимодействие являются значительными. Однако, глядя на …

1
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?
mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Как выполнить остаточный анализ для бинарных / дихотомических независимых предикторов в линейной регрессии?
Я выполняю множественную линейную регрессию ниже в R, чтобы предсказать доходность управляемого фонда. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Здесь только GRI и MBA являются бинарными / дихотомическими предикторами; остальные предикторы являются непрерывными. Я использую этот код для генерации остаточных графиков для двоичных переменных. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.